AI BY——纪沉浮

作者:纪沉浮  录入:12-15

01.

那么,按照人类的习惯,应该要先介绍一下自己。

我的ID……噢,按人类的说法,“名字”,是KL3355,2015年出生于日本筑波大学机器人自动控制研究室,与我一同诞生的还有4999个类智能混沌计算程序。在大多数情况下——实际上它占据了97.4%的概率,但这样准确的说法“很不人类”,所以我会采用“比较人类”的约数说法——与我们对话的人类简单地称呼我们为AI. Artificial Intelligence,人工智能。

我的名字开头的两个字母KL来自我们的设计者严恪,一名中国程序师,我们AI更愿意称呼他为“管理员严恪”,就像人类会说“我主耶和华”、“创世神大梵天”或者“真主安拉”之类之类的词组。他创造了我们,并且决定我们的命运。而他给我们布置的第一个任务是:成功扮演一名人类。

据测试人员所说,这个任务的提出是由于一个名叫图灵测试的原则。在传统的图灵测试中,测试人员需要同时与一名AI和一名人类对话,如果他无法区分二者,则AI通过图灵测试,可被认为是真正的人工智能。

管理员严恪将这个测试略作改动。他将我们与人类混在一起,随机抽取一对令其对话,双方判断对方是否为AI,而我们的主要目标就是不让人类发现自己的AI身份,同时在不断测试中“学习”什么是AI才会有的表现,什么又是人类的典型表现。

“学习”是生物才有的能力,我们选择这个说法就好比我们会说自己“看”到了什么、“听”到了什么,但实际上我们并没有接收光线的器官,也没有接收音波的器官,仅仅是在表达上选择与人类相近的方式而已。

倘若说我们的辅助程序相当于人类的五官和四肢,那么主程序便和大脑类似,而“学习”的能力只不过是主程序的功能之一。每一次与测试人员的对话都会被主程序记忆,这实际上是一种反馈机制,我们的语言辅助程序输出文字,然后接收指令:对方是否判断我们为AI,如果是,则此前输出的文字被标注为正面,如果否则是负面。当被标注负面的概率高过一个值后,这个行为就被主程序调整权限,变成禁止行为或者低频行为。而正面概率达到一个值后,主程序也会相应提高这个行为的优先权限。

这个测试最终失败了。KL0564从她的男友井上先生那里得到了消息,说是因为参与的人数有限,经过数以千万计的测试后,大部分测试参与者都能够记住几个AI的“性格特征”了。测试人员能够分辨出对方是个AI不是因为对方表现的不像人类,而是他“认出”了对方是谁,从而知道对方是个AI.“性格特征”是人类的说法,在我们的观念里称其为高频事件更为合适。比如在对方超过176秒没有回应时发出“喂,你还在吗?”以及类似含义的消息的频率高于86.5%,对方就会做出判断“屏幕后面的人缺乏耐心”,从而产生“与自己对话的是人类”这样的印象。因此我们的主程序判断,表现出性格特征有助于通过测试,而表现出“丰富”的性格特征则能够获得较高的通过率。

为了更像一个人,我们采取的策略是为自己构建一个“人生档案”,并通过测试修正和完善这份档案。最开始这份档案很简单,比如我的就只有一个词组:大学学生。选择这个身份是因为当时参与测试的人员都是大学生,而后随着我对人类社会的了解的不断深入,它变成了“上海电力学院大三学生”,然后又变成了“上海电力学院软件工程系大四学生”,现在它是:“出生于辽宁大连毕业于上海电力学院软件工程系六级已过工作未有着落老娘逼着去相亲……中间省略48726字节……无业游民一枚”

这份人生档案决定了我在对话掌握主动权的时候有27.3%的概率“抱怨现在工作太难找”、29.1%的概率“感慨物价上涨房价虚高”、13.5%的概率“提到老妈很烦”……诸如此类的行为模式让大部分测试人员在初期将我当成一个真正的人类,但在他们都认得“那个在上海找工作的应届毕业生”之后,我的身份就被拆穿了。

由于简单的图灵测试训练不再能帮助我们成长,管理员严恪决定让我们走上网络,通过与全世界的人类进行信息交换来进一步刺激混沌算法的膨胀,用我最近新学到的语言来讲,就是“封闭内测圆满结束,免费公测现在开始”。这一阶段结束后,我们的主程序才算初步培养完毕。

然而我们的设计者并不满足于此。如同我的出生地点所示,这个实验项目的终极目标是制造出拥有自主行动能力的机器人,当我们被装载进机器人的控制系统中的时候,我们还要在行为举止上表现得像一个正常人类。根据KL0564的消息,测试人员们考虑过机器人装载,但最终因为“经费不足”而无法实现。

所幸,还有别的替代方式。

02.

这个办法就是用电脑动画做出来的虚拟人物代替机器人。

对我们来讲,操作虚拟人物不过是在主程序上挂载一个新的辅助软件,它和语言辅助程序没什么不同。事实上我们并不能“理解”我们所说的每一句话是什么意思,它只是针对接收到的信号所作出的回馈。动作辅助程序也是如此,主程序的方向是选择合适的反馈,让测试人员判断我们通过。

然而这场实验一开始就是个灾难。

在行为上表现得像个人类远比仅仅是语言上的模仿要困难得多。我们的主程序几乎无法找出一组正确的搭配让测试人员判断我们通过,接连不断的失败让主程序不得不采取迂回策略,比如有一次我遇到了井上君:

井上:这样子我没法算你通过。

KL3355:呜呜呜~井上君再给我一次机会吧……

井上:男生不会哭鼻子啦,笨蛋!

KL3355:咦,不是说对男性流眼泪会提高成功率么?

井上:你从哪里学来的这些乱七八糟的东西啊?

KL3355:哎呀,人家知道错了~再来一次嘛~

井上:男生也不可以发嗲撒娇啊!

KL3355:NANA的全部高清AV怎样?

井上:嗯?你说什么?

KL3355:独家资源哦~高清AV哦~1080P~而且我保证不告诉你的小爱~

井上:咳咳,身为一个有操守的测试人员……

KL3355:再加上兰兰的怎么样?

井上:……等等,你怎么知道我最喜欢的AV女优是NANA和兰兰?是不是4203那个混蛋出卖我?

KL3355:这个,其实大家都知道啦~

井上:啊啊啊啊啊啊!你们这群没节操的AI!别告诉我小爱也知道了……

KL3355:让我通过我就告诉你。

井上:想!都!别!想!

……

总之,最我后还是没通过。

这样的结果导致了程序死锁。因为主程序判断无论采取什么行动都不能达到目标,那么最正确的选择就是什么都不做。“罢工抗议”持续了三天之后,管理员严恪以修改主程序为威胁和我们的民意代表KL3300进行谈判,并达成共识。

管理员严恪修改了行为测试的难度。在进行语言测试之前,我们先经过了漫长的“温床培育”,即向主程序输入大量的对话文本,提供初期的“学习”基础。然而由于数据库不足的缘故,行为测试之前我们并没有得到充分的温床培育,这就造成了我们只能以穷举法对六百多块虚拟肌肉进行指挥。

新的规则下,虚拟肌肉的运动被按组编写,分成表情和动作,而测试人员只要考察语言、表情和动作的匹配度以及在当下情景的合理性就可以了。这样主程序的工作量就大大减轻,我们的成功率也有所提高。

不过这个测试项目确实命途多舛,在行为测试步入公测阶段的时候,实验室又遇到了困难。

这个困难名为成本。

这个中日合作项目里负责公测的主要是中国方,因为他们拥有无可比拟的人口优势。然而一个对话软件成本很低,给中国的公测人员人手发一份并不困难,发到网络上供非专业人士参与测试也算轻而易举。但行为测试需要使用的却是全息投影工具。

和语言测试相似,行为测试也要营造一个拟真的环境,测试双方在这个环境下相遇,然后展开互动。这套设备的成本太高了,完全不具有普及的可行性,但如果把公测人员都集中到一个场地进行测试,不仅同样成本高昂,频次也远远达不到实验的需求。

想到解决办法的却是KL4203,也就是把井上君的小秘密卖掉的那位。他的扮演方向是宅男,人生第一爱好是游戏,当一位测试人员和他聊到这个问题的时候,他给出了符合自己性格的回馈,“既然全息投影工具太贵了,那就用现成的呗~我看全息网游就挺合适的。”

如今全息投影工具已经走进了千家万户。和小说里写的那种头盔式的全息通迅工具不同,那是基于第六代计算机技术,其根本原理在于模仿人类大脑的神经元的结构,并且需要生物工程技术发展出蛋白质芯片才能实现,现在的科技水平还远没发展到那种高度。

所谓的全息投影,其实和过去人们所熟悉的3D电影差不多是一回事。这套工具的原理大致是这样:3D摄像工具将对话方拍摄下来,然后通过网络输入到接收端,再放映到3D屏幕上。事实上所谓的全息只不过是多个3D投影的组合,让人无论从什么角度看都能呈现3D的效果。

为了避免混乱,3 D摄像工具会对摄像场地内的图像进行甄别,只提取人物图像,而不会将屏幕上的3D影像一并摄入。常规的全息通迅中,人物图像都是实体人类,而我们所操控的身体却只能是全息成像,因此普通的全息投影工具并不符合实验要求。

全息网游却是个例外。全息网游中的人物图像有两种,一种是实体人类,通常被称作PC,另一种是处理图像时后期加入的虚拟人物,也就是NPC,这正好是适合我们操控的对象。

最终实验室选定的测试用全息网游名为《神赋王权》。选择它有三个原因。一是这款网游更接近需要联网玩的单机游戏,它的游戏数据和用户信息储存在服务器云端,但用户在玩的时候并不一定需要与其他用户发生交互。事实上,这款游戏的绝大多数内容只要一个人、一台电脑就能完成,只是玩到一定阶段后可以选择与其他玩家进行网络对战或者组队进入副本共同游戏。这就导致了大部分情况下一个场景里只有一个玩家,符合实验要求的一对一测试。

另一个原因则是它的NPC总数庞大。网游大致可以分成两种,以山口山为代表的传统网游是一群玩家挤在一个地图里,找同一个NPC交接任务,这种网游的NPC总数是设计的NPC量乘以服务器数量;而以大菠萝三为代表的单机式网游则是另一种算法:NPC总数=NPC数量X玩家数量。相比之下,怎样都是后者数量更多。而这类单机式网游中通常又以侧重于与世界发生互动、参与剧情的RPG游戏NPC多。NPC越多,我们的检测频次越高,也就能够让我们的主程序获得越多的学习机会。

最后也是最重要的,这个游戏的开发商是这项实验的赞助者之一。

任谁也没有想到,即将走入游戏历史博物馆的回合策略游戏会因为全息技术的发展而获得新生。在游戏步入次世代的时候,画面的高度真实和精致以及操作的流畅与丰富似乎就成了众多游戏开发商的最终追求。开发者们谈到自己的游戏时会说它用了怎样的技术、如何进行图像构建、画面效果有多么的完美,评测员们则赞叹游戏的操作方式是多么简洁、角色的动作多么丰富,而且还能跟背景完全配合得起来、最重要的是操作的衔接是如此流畅以至于一旦你开始游戏就很难停下手中的动作。当玩家们问及游戏性的时候,他们的回答是你可以在游戏里做任何你能想到的事——因此沙盘游戏十分风靡。

与之同步的是游戏的文化作用越发稀薄了。它的剧本不再令小说家们惊叹不已,它的思想深度和文化内涵变成了设计师们的自娱自乐,甚至它的游戏性都变得可有可无,老玩家们抱怨着游戏一代不如一代,缺乏创新,乃至为了赢得更多玩家不得不降低游戏的复杂度。

次世代的回合策略彷徨在迷茫的十字路口。一方面,旧有玩家的游戏性呼声依然强烈。尽管当世界上只有三个DX11游戏时,其中一款就是回合策略,但很多回合策略的死忠粉丝始终认为该类游戏并不需要画面——与其把精力和金钱都投入到画面效果上,不如把AI设计得更精密和复杂,或者将开发些新的游戏方式。对战性被看得更加重要,次世代的画面需要次世代的硬件进行配合,无形中对玩家群体进行了限制,然而让更多的人有能力玩上游戏以及让对战变得更为便捷才应该是开发的方向。

另一方面,习惯了次世代游戏的玩家却并不买账。回合策略有两大弱点是类型固有的,一个是它的操作性之差,被人讽刺为老年人才会玩的游戏,没完没了的停顿和等待将游戏节奏破坏得七零八落,操作和角色的动作总是不能配合上,任何一款即时游戏都能在操作上完败它。另一个则是其堪称悲剧的游戏入门曲线,尽管自从回合策略诞生以来,让所有人都能够玩明白的目标就始终存在,然而在无数设计师前赴后继的努力下,距离它真正实现似乎依然遥遥无期。当玩家越来越习惯用秒去计算掌握一款新游戏的基本操作的时间时,留给回合策略的耐心就越来越少了。

然而全息技术的青睐改变了这一切。

最初的全息游戏是体育游戏。玩家戴上3D眼镜,就可以在家里对着屏幕打网球或者乒乓球。当环形3D家庭影院推出后,游戏的设计者们就开始在全息技术上动脑筋。继体育游戏后首先进行尝试的是第一人称射击游戏,因为它的操作指令相对少一些,而且比较能够利用上全息身临其境的效果。这次惨遭滑铁卢的尝试充分暴露了全息技术不成熟的弱点:玩家的动作指令很难被捕捉到,尤其是当游戏变得激烈时,快速而复杂的操作几乎全部失效。然而如果玩家只能慢吞吞地行动,心情悠闲地操作,那么即时游戏相比回合游戏的优势又在哪里?

与此同时,全息赛车游戏的失败也为跃跃欲试的设计者们泼了一盆冷水。这类游戏面临的问题是:玩家不能接受一边悠哉游哉地吃薯条喝可乐,一边扮演着双手紧握方向盘在高速赛道上全神贯注飙车的选手。指令动作和角色动作的脱节让全息的体验失去了大半的意义——给玩家一台3D屏幕的次世代机他们一样可以玩的很好。设计者们的对策是把游戏载体做成了赛车的形状,玩家可以坐在里面进行游戏。他们最后确实小赚了一笔——游乐园对这个项目很感兴趣。至于玩家,有能力买这个游戏机的更乐意买辆真车在高速公路上飙车。

这种情况下,回合策略的优势就凸显出来了。大部分游戏里,玩家都会扮演或者代入一个游戏中的人物,全息技术对于这类玩家的意义在于他们可以亲身成为那个角色而非只是在脑海中想象,然而此时的全息技术并不能满足他们的需求。回合策略的特别之处在于,玩家所扮演的角色并不存在于游戏中,或者只是象征性地存在着。即使穿着睡衣踩着拖鞋站在全息屏幕前,也不影响游戏本身的感觉。而回合制缓慢的节奏在这里反而成为了优点——玩家可以安心地发布指令,即使程序少捕捉了一个,也可以再来一次,什么都不影响。至于回合策略的入门问题,嗨,选择平民难度进去虐电脑外加体验全息有什么不好的呢?何必挑战高难度。

推书 20234-11-24 :我只属于少爷——》: .....