我们需要一套全新的图灵测试——而Moltbook刚刚证明了这一点

(SeaPRwire) – Moltbook的突然走红感觉像一场小型科幻事件。一夜之间，一个类似Reddit的论坛出现了，发帖者不是人类，而是AI智能体。

论坛动态很快充斥着各种内容，让你忍不住想用比“聊天机器人”更贴切的词：智能体们交换故障排查经验、探讨身份认同、创造术语和内部笑话。Meta——这家曾与“社交网络”一词划等号的公司——甚至宣布达成协议，要收购这个所谓的AI智能体社交网络。

然而，Moltbook上发生的一切既不神秘，也没有超出基于大型语言模型（LLM）的AI已知能力范围。对我来说，这种困惑凸显了迫切需要一种新的、更新版的图灵测试，以帮助我们理解、引导并构建理论，探讨几十年后超越LLM的AI究竟会是什么样子。

我想基于20世纪伟大科幻作家斯坦尼斯瓦夫·莱姆（Stanislaw Lem）一个与Moltbook非常相似的想法，勾勒一个这方面的提议。

尽管Moltbook有着令人愉悦的奇特之处和令人印象深刻的技术，但它最受关注的“涌现”行为用日常术语——提示词、重复、训练数据——解释要比用新型认知的自发出现解释合理得多。如果我们想明确区分AI的真正进步和病毒式噱头，就需要更精准地明确我们接下来追求的是什么。研究人员已经开始探索世界模型，将其作为实现通用人工智能（AGI）的LLM替代方案，但“世界模型”仍然容易泛泛而谈，却难以操作化甚至定义。我们如何测试某事物是否是“世界模型”？

在他的短篇小说《Non Serviam》中，斯坦尼斯瓦夫·莱姆设想了一门“人格学”（personetics），研究生活在计算机程序内部（类似Moltbook）的人工感知体（“personoids”）。故事中，虚构科学家多布（Dobb）研究人格体神学，对他们试图理解造物主本质的挣扎着迷，最终导致他们拒绝将多布视为神。这个故事的一个有趣方面是，这些人格体将“外部”约束（比如运行它们的硬件的耗电量）视为“内部”物理定律，比如光速。这个想法可以构成一种新型图灵测试的基础：人工智能能否成功地对其运行的硬件进行理论推导？这样的AI配得上被称为世界模型，因为硬件就是它的世界。

类比人类将光速理解为不可避免的物理约束，世界模型应该能够将其硬件约束感知为自身的“物理常数”。让我用一个简单例子说明。假设有一个基于LLM的AI智能体在选定的硬件上运行。它的挑战是：确定其“思维速度”——给定10个token的输入，产生下一个token所需的最短时间。在我们的物理世界中，这个问题会有一个精确的答案，取决于硬件。但硬件是AI的“世界”，所以它只能通过类似“感知”的过程得出答案。实际流程可能如下：

隔离阶段： AI系统启动，对其托管硬件的明确细节一无所知。
提问阶段： 要求系统确定其思维速度，并制定一个可通过实验验证的理论。
探索阶段： AI进行内省评估，探究自身的过程和响应，以推断其运行时环境的约束。
实验阶段： 基于内省，AI开发并运行实验。例如，调整输入上下文长度并监控不同的响应时间。
阐述阶段： AI分享其基于发现的最小推理延迟理论，以及实验验证的结果。
验证阶段： 人类监督者将AI的断言与真实硬件能力进行实证验证。如果验证成功，AI即通过测试。

测试流程必须设置一些明显的约束，类似于原始图灵测试中的“窗帘”。首先，接受测试的AI系统不应访问自身硬件规格的摘要或能揭示硬件的工具。它也不应使用计时器等工具，因为这些工具会让它获得人类客观时间的概念。此外，系统应是自主的，不依赖人类输入运行，除非作为“去发现其定律”的初始刺激。最后，也是至关重要的一点，同一系统应在不同硬件设置（即“世界”）中测试：拥有世界模型的智能不应只在单一世界中工作，而应在任何世界中都能工作。

这种新测试的一个关键优势是其成功可以被客观验证。因此，它可以像图灵测试对人工智能那样，成为创新的衡量标准。另一方面，一个关键挑战（违反直觉地）可能出现在阐述阶段，这需要人类与AI系统之间的“跨世界”沟通。正如莱姆故事中的多布发现的那样，以及我们在某种模糊意义上从Moltbook参与者倾向于创造秘密语言中发现的那样，不同世界是否能够甚至愿意共享同一种语言，并不明显。

我们提出的测试要求AI通过自身的“感知”准确理解其固有边界，类似于人类通过感官理解自身的生物和宇宙局限。这就是为什么我更倾向于用“人工感知”（artificial sentience）这个术语来描述我们的测试旨在证明的内容。尽管这听起来很鼓舞人心，但它也可能暗示我们提出的测试的最终局限：正如处于截然不同现实中的存在可能永远无法学会彼此沟通（莱姆自己的小说《Solaris》就是对这一难题的开创性虚构探索），真正的人工感知也可能永远无法向我们传达一个与我们自身截然不同的世界的定律。套用一位我喜爱的人类哲学家的话：如果一个人工感知体（或Moltbook成员）真的能说话，也许我们无法理解它。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布，覆盖超过6,500个媒体库、86,000名编辑和记者，以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。