在很多非线性的游戏中,制作组往往会给玩家提供各种不同的剧情分支,并根据游戏中玩家行为、选择的不同,来决定最终结局的走向。
这样的游戏,既有《巫师3》、《2077》这样的开放世界大作,也有《奇异人生》、《底特律:变人》这类剧情互动类游戏。
尽管这样的机制,是为了让玩家觉得自己的选择更有“意义”,更能影响游戏世界的命运。
然而,玩过此类游戏的玩家都明白,其实各个不同的分支、结局,是早就已经被编剧写好了的。
在某些情况下,为了看到特定的结局,部分玩家往往会忍不住去查攻略,看看究竟做出怎样的选择,才能触发特定的剧情。
如果不知道这些选项背后的剧情,选起来可能会很纠结
在这种情况下,游戏的走向和剧情,归根结底是可预知、可控制的。
然而,基于此次GPT所带来的各种AI革命,却让人看到了这类“多剧情选择”类游戏更自由的可能。
一、没有剧本的NPC
5月29日,在中国台北举办的2023年台北国际电脑展(Computex)上,老黄向人们展示了一种名为Omniverse Avatar Cloud Engine(以下简称ACE)的AI技术。
这个技术,简而言之,就是让游戏中的NPC具有了“即兴创作”的能力。换句话说,NPC与玩家的对话,不再是基于已经写好的台词,而是会根据玩家的语音,进行实时反应和生成。
在这段演示中,玩家通过与拉面店的老板“闲聊”的方式,得知了城东边一个犯罪头目的踪迹,并顺带接下了个支线。
而实时进行的对话,则是由一套被称为NeMo的系统生成的。
整个NeMo系统,可以分为两大部分:NeMo Language技术是用于构建、定制和部署语言模型的服务,它可以根据游戏设定和角色背景生成适合的对话内容。
Dialogue Manager是用于管理对话状态和策略的系统,它可以根据玩家的语音输入和NPC的语言模型,决定NPC应该说什么。
虽然英伟达的技术看似复杂,但早在该技术公布前,民间就早已有人弄了个“低配版”的NeMo。
具体做法是,在《上古卷轴》这样的游戏里,以MOD的形式添加GPT-4到角色的对话系统中,再通过语音识别技术,让玩家用说话的方式,实现与NPC的实时交流。
这类技术的问世,在让游戏变得更生动的同时,也无意中让一些游戏制作人梦寐以求的剧情机制,真正地有了现实的土壤。
而这些天马行空的制作人,就包括了《生化奇兵》的设计师肯·列文,
在前段时间的采访中,肯·列文表示,他的下一款游戏《犹大》(Judas)将采用被他称作是“剧情乐高”的系统。从而更加突出“玩家驱动”的重要性。
实际上,关于“剧情乐高”的玩法,肯·列文在2014年的GDC演讲中就进行了探讨。
在他的理念中,这个思路是将剧情拆分为最小的、可触的组件,并将其不断重新排列,类似一个个乐高玩具那样,从而探索出广泛剧情走向的方案。
在肯·列文看来,既然目前的游戏,已经仿造出了一种基于真实世界的物理系统,那么对应的,在剧情方面也应该有这样一个类似叙事的“物理引擎”,能让一切剧情、角色自然地相互交流、互相碰撞。
在这样的叙事系统中,叙事元素互动的关键点,将完全交给玩家。
然而,由于当时(2014年)的AI技术远不及今天这样发达,因此肯·列文的想法实施起来,必定会遇到很多技术上的困难。
一个显著的技术难点是:如何让这个庞大的、基于各个因素关联起来的叙事系统,能够自然而有逻辑的运转,并传达出游戏所蕴含的情感、基调?
在生成式AI突飞猛进的今天,这一切似乎终于有了答案:
在之前提到的ACE等实时互动技术的加持下,编剧不必再煞费苦心地构思每个NPC的戏份、台词,它们完全可以用实时生成的对话策略和行为逻辑,自发地与玩家驱动剧情。
二、AI版DND
这种与NPC实时互动的方式,人工编写的剧情分支,究竟有什么本质上的不同?
我们可以通过一个假想的场景来进行比较:
假设我们在玩一个以中世纪为背景的冒险游戏,游戏中有一个魔法师NPC,我们在游戏中遇到了他,他向我们提出了一个问题:你知道这个世界上最强大的魔法是什么吗?
在以往人工编写的剧情分支中,玩家往往会面临几个固定的选项:
A. 我不知道,你告诉我吧——魔法师会告诉我们是时间,因为它可以改变一切。随后会邀请我们加入他的研究团队
B. 我不在乎,你别烦我。—— 魔法师会嘲笑我们是一个无知和愚蠢的家伙,之后向我们展示一种强大的魔法。
C. 我觉得是恐惧,你呢?—— 魔法师会奸笑地点头,然后他会向我们透露自己的阴谋。
而如果使用实时交互技术来推进剧情,我们将不会有固定的选项,而是可能会依据玩家个性、行为的不同,出现各种结果:
如果我们回答得很简单或很模糊,比如说“我不知道”或“可能吧”,魔法师可能会对我们失去兴趣,转身离开。
如果我们回答得很粗暴或很无礼,比如说“你闭嘴”或“你去死吧”,魔法师可能会对我们发怒,并对我们施展一种强大的诅咒魔法。
如果我们回答得很幽默或很奇怪,比如说“我觉得是香蕉”或“我觉得是你妈”,魔法师可能会觉得我们很有趣或很奇特,问我们更多的问题或给我们更多的信息。
在这样的机制中,由于每个玩家个性的不同,NPC对应的反馈也会不一样,而每段由此生成的剧情,也都将是独特的,别人无法体验的。
于是,一个真正“千人千面”的游戏剧情系统,就由此形成了。
不过,这种“恣意妄为”的玩法虽然看起来很胡来,但也并非在游戏史上没有先例,一个最类似的例子,就是很多人耳熟能详的DND跑团机制。
DnD跑团的玩法,简而言之,就是一种角色扮演+多人互动+一定随机性的机制。
游戏开始时,玩家可以创造或选择各种角色,例如勇猛的战士,或是狡诈的盗贼。
接着,游戏的主持人DM,会主持这些玩家的冒险,让他们经历某段剧情,对抗某个BOSS。
这个过程里,1/3靠玩家和DM的想象力,1/3是靠游戏的规则书,1/3是靠骰子来决定各种行为的成功与否。
在这样的玩法中,玩家的想象力很大程度上决定了游戏的走向。
如果你愿意,你完全可以将香蕉当成武器,去捅某个BOSS的鼻孔。
如果我们将与NPC实时互动的机制,与DND的玩法进行对应,那么由AI驱动的游戏角色,实际上就代替了DND中的主持人以及其他玩家。
在此基础上,依靠着一定的随机性,游戏在没有编剧插手的情况下,就能让玩家与NPC一直驱动着剧情走下去。
然而,为了避免这样互动,彻底变成杂乱无章的随机事件,以至于剧情的走向变得毫无逻辑,或偏离游戏主题,这个由AI驱动的剧情机制,也需要自己的“规则书”。
三、预知一切的AI
这样的“规则书”,实际上就是整个游戏世界运行的逻辑和规律。
在此基础上,游戏能根据玩家的具体行为、决策,进行相应的推理预测,从而一步步构建出整个游戏的剧情走向。
可问题是,无论是之前的各种“多剧情选择”游戏,还是DND的跑团机制,实际上都是在用人脑有限的想象,来模拟和预测玩家行为的后果。
而这种方式的局限性就在于,当人们采取了“AI版DND”的玩法,即玩家与NPC实时互动的方式来驱动剧情后,由于每个玩家个性的不同,必然会造成NPC反馈“千人千面”的情况。
在这种情况下,用人工的方式,是几乎不可能穷尽所有的结果的。
在《底特律:变人》中,想象如此多的分支,已经很不容易了
在这种情况下,人类就需要一种具有“预测”能力的AI,来代替自己进行推理、想象。
而这样的AI,在现实中也已经出现了。
就在不久前,图灵奖得主、Meta的首席人工智能科学家Yann LeCun,就勾勒了一个不同于当前GPT的新型AI模型——世界模型。
而这类世界模型,与当前的AI大模型最大的区别,就在于其可以通过观察视频的方式,来学习关于真实世界的大量背景知识,并由此推断出什么可能,什么合理,什么不可能。
Yann LeCun构想的世界模型,由六大部分组成
在Yann LeCun看来,大部分人类所拥有的知识(例如骑自行车、洗碗等),其实和语言无关,所以这部分内容,仅通过文本来训练的GPT,是捕捉不到的。
而通过“看视频”来学习的AI,与GPT相比,能够更加准确地把握世界运行的各种“常识”。
例如,某个司机可能以前没有在雪地上开过车,但他(很可能)知道雪地会很滑,如果开得太猛,车就会打滑。
而正是这种常识性知识,使人和其他动物不仅能够预测未来的结果,而且能够填补缺失的信息。
这也是为什么,在Yann LeCun看来,现在的GPT“连狗都不如”
于是,在具备了各种常识之后,这样的AI模型,就能根据现实世界的规律,对各种事件进行分析、预测。
在Yann LeCun的世界模型中,最复杂的是一个名为“世界模型模块”的部分。
它有两个作用:(1)评估感知未能提供的关于世界状态的缺失信息;(2)合理预测世界的未来状态。世界模型可以预测世界的自然演变,也可以预测由行为者模块采取的一系列行动所产生的未来世界状态。
在从各类事件中抽象出潜在的因果关系后。该大模型就能生成多个可能的未来状态,并根据成本或目标来评价和选择它们。
而当这样具备了“预测能力”的AI,与NPC的实时互动技术相结合后,我们就不难想象,两者会碰撞出怎样奇妙的结果。
举个假想的例子,如果世界模型在游戏中,想要设计一段“男主和女主在赛博朋克世界中,逃离垄断企业追杀”的剧情。
它就会用预测器来猜测下一段电影的摘要,比如“男女主角最终逃过了追杀”。
但是它也知道这个预测不一定准确,因为剧情可能有很多不同的走向。比如“因追兵太多,男主为救女主角牺牲了。”,或者“浮空车被击毁,二人双双身亡”。
所以它用一个潜在变量来表示这些不确定性,比如“垄断企业的实力”或者“男女主角的关系”。
这样,“世界模型”就可以生成多个可能的剧情,并根据因果关系、世界观设定来选择它们。
有了这类AI技术的加持,也许在未来的某一天,真正依靠“玩家驱动”,并且在剧情上有着更多选择、更自由可能的游戏机制,就将不再只是某些开发商宣传时的夸大之词了。