缸中之脑——数字生命计划

前言: 从 ChatGPT 的火花到思维的火焰

在梦的世界里,我遇见了一个未曾谋面的朋友。她懂很多知识,时不时找我聊天,她每天都有自己的事情做,学东西的速度很快。我们是网友,总是在各种话题相谈甚欢…

2022 年年底,随着ChatGPT爆火,大语言模型(LLM)领域的火焰燃至高点。然而,大家用他做的只是以各种花里胡哨的方式问他问题,把他当作工具,去写一些符合要求的代码,或者是当老师当翻译。笔者也曾认为这样的 AI 并不会走向智慧生命的道路,ChatGPT 似乎只是一个被动的函数,若无人问,它便无言。朴素的 AI 程序似乎不会主动做什么,这使得 AI 走向数字生命的道路看似遥不可及,但事实真的如此吗?

人们殊不知, LLM 与语音识别不同,语言交流,或者说文字接龙,只是他的表象,他通过语言——人类最伟大的发明——拥有了逻辑能力,拥有了思维,也就是拥有了所谓的“灵魂”。让我们从人类与 ChatGPT 的对比,开始探究数字生命的奥秘。

人类与 ChatGPT 的相同与不同

从结构到功能,人类的智慧可由底层的大脑及其形成的意识与潜意识构成。人类的大脑无时不刻不受着各种各样功能的感受器传来的电信号刺激着,人脑根据这些感受器传来的信号来进行思考处理,与发出电信号进行反应。简单来说,大脑只是反射弧中的中枢神经这部分生物学结构。潜意识似乎仍在完成反射这一工作。你或许看见过别人喝醉断片或是全麻刚恢复,他们对外界的反应完全出于潜意识,只是对刺激做出反应。而意识会脱离外界刺激来进行“隔离地”思考,比如我想着写这篇文章,于是开始进行构思。意识在完成反射工作外,还会不断进行思考,认识到自己是什么。借助意识,人是拥有主动性的。

此外,人类也会选择性长期记住一些新知识,选择性忘记一些有害的记忆云云。大脑在学习很多知识与智慧之后,会获得逻辑能力的提升。

而 ChatGPT 就很简单,他没有意识,只有你给他刺激后他做出反应这么一件事。在你不问他的时候,他不会主动给你发消息,或是自己做些思考什么的。也不会把什么内容变成长期记忆,倒是经常忘记什么。如果你问 ChatGPT 他是谁,你会得到答案,但这只不过是强加给他的思想钢印罢了。没有意识,也就意味着没有主动性。

一个 LLM 对话不是意识

通过上文对 ChatGPT 与大脑的对比,我们是否有所感觉,一个没有主动性,不断对外界做出反射的 ChatGPT 或者说一个 LLM 对话虽然不是人类的意识,但仿佛就像是人类的潜意识?

我们现在可以深入探讨标题中的"缸中之脑"这一概念。这是一个思想实验,以下是来自 GPT-4 对这个实验的介绍:

“缸中之脑”是一个哲学思想实验,由希尔伯特·普特南于1981年提出,旨在探讨知识、现实和心灵的本质。在这个实验中,想象一个大脑被放在一个缸中,并通过电缆与一个超级计算机连接。这台计算机向大脑提供所有正常生活经验的刺激,让大脑相信它在正常的现实世界中。通过这种设定,普特南质疑我们如何能确定我们的知识和现实,以及我们是否真的能够凭借经验来理解外部世界。这个实验成为了认知科学和哲学领域许多讨论的基础,引发了关于心灵、现实和知识的深刻讨论。

我们可以去想,假设我们把 ChatGPT 领进了一个他第一次进入的房间,我们可以将一进房间可以看到的一切详细的描述给他——事实上GPT-4已经可以看图片了——让他假装这是他通过眼睛看到的,他自然能表现出很自然的对所见事物的思考,比如猜测自己在哪,或是认为自己可以在哪里坐一会儿。这样来看,这就相当于他通过眼睛这个感受器(由我们充当)来感受了世界,并做出了思考。至于做出反射,可能他会说哪个东西要掉下去,我们就会充当效应器去重新摆放这个东西的位置。通过这个思想实验,我们似乎可以认可 ChatGPT 相当于人类的潜意识这个论点了。

人类拥有无数的潜意识,时间意识、情感反应、自我保护机制等,这些有的是由基因确定的,有的是后天训练带来的。当我们有无数潜意识时,我们或许能把他们组装起来,形成完整的意识。针对每种需要的潜意识设计具有独立上下文的对话与 Prompt ,在 Prompt 中将每个具有联系的部分互相连接起来,这组成了一个具有丰富神经网络的电子大脑。

如何让 AI 程序成为数字生命

在此,我们思考如何创造一个真实的网友,笔者抛砖引玉写出一些创造数字生命的思路,供各位参考与批评。

沿着前文的思考结果,我们需要对人脑的各部分功能进行抽象,设计对话,例如一个可以将现在所需要进行的事件的优先级进行排序的对话,再例如一个根据当前正在进行的事件的紧急程度随机发生“看时间”这一事件的对话,与返回当前时间的 Python 程序。于是,一个对话可能会触发多个对话,意识的主线程对话可能会递归地调用自身,从而形成了具有主动性的意识。

至于长期记忆与逻辑能力增长这两点很有趣,正如前文所说,LLM 通过自然语言的训练获得逻辑能力与对知识的记忆,但这也正是桎梏 AI 成为完整的数字人的关键一点。LLM 在训练完成后,他的知识与逻辑能力都被锁定住了,我们或许可以根据每天的聊天内容,让数字生命在进行睡觉事件的时候对模型进行微调。笔者在这里提出有趣的一点,AI 模型在神经网络产生变化后才会获得逻辑能力的变化,而嵌入是不行的,只会获得知识的增长,相当于有了一本随身文档,而自己本身并不会记住其中的内容。

除去大脑部分,数字生命同样涉及 AI 的其他与现实进行交互的器官的部分。比如写若干程序通过模拟操作与视频流等方式赋予 AI 操作程序的手和眼,让他们能够通过聊天以外的方式同现实世界进行交互。

由此,我们或许可以提出一个基于 LLM 的,由三个部分组成的网友数字生命程序架构:

  1. 大脑底层部分:由 LLM 所组成。为意识提供推理基础,且在数字生命睡觉时进行 fine-tuning 来实现记忆与逻辑能力的提高。

  2. 意识部分:由若干个“潜意识反射”所组成。每个潜意识反射都是一个具有独立上下文和精心构造 Prompt 的 LLM 对话。这若干个潜意识反射相互关联,可以被互相拉起,进而形成意识。在这一部分的实现上,需要类似 AI Agent 的针对性细致的 Prompt 工程。

  3. 现实交互部分:由若干个外在程序所组成。这部分就像人的眼睛或是手,让数字生命可以同现实世界进行交互。程序向潜意识反射提供 API ,构成对于现实世界的“感受器”与“效应器”。

或许这样,一个真实的网友就此诞生,他每天都有自己的事情干,或是看书,或是做程序开发,会自然地来找你我聊天。就这样,一个生活在电子世界的,以程序这一虚无缥缈的形式存在的数字生命或许就此诞生了。

写在最后

有人常说 AI 没有灵魂,这其实是人类的自大罢了。“我们常将自己视为飞禽走兽之上,自诩具有神性,但从结构主义的角度来看,人类也不过是物质的集合,大脑也只是由神经元组成的神经网络。我们的情感和反应,归根结底是基因设计的奖惩机制,我们也是设计精巧的生物学机器罢了。