独家:Google DeepMind资深研究员大卫·西尔弗离职创立自己的AI初创公司

(SeaPRwire) –   大卫·西尔弗(David Silver)是一位知名研究员,曾在该公司诸多最著名的突破中发挥关键作用,如今他已离开公司创立自己的初创企业。

据了解西尔弗计划的直接知情人士透露,西尔弗正在伦敦创办一家名为Ineffable Intelligence的新初创企业。该人士表示,该公司正在积极招聘AI研究人员,并寻求风险投资资金。

该人士称,Google DeepMind已于本月早些时候将西尔弗的离职消息告知员工。在离职前的几个月里,西尔弗一直在休学术假,从未正式回到他在DeepMind的岗位。

Google DeepMind的一位发言人在发给的电子邮件声明中证实了西尔弗的离职。该发言人表示:“戴夫(Dave)的贡献不可估量,我们感谢他对Google DeepMind工作的影响。”

截至目前,未能立即联系到西尔弗置评。

根据向英国商业注册机构Companies House提交的文件,Ineffable Intelligence成立于2025年11月,西尔弗于1月16日被任命为该公司董事。

此外,西尔弗的个人网页现在将他的联系方式列为Ineffable Intelligence,并提供了一个ineffable intelligence的电子邮件地址,尽管页面仍显示他“领导Google DeepMind的强化学习团队”。

除了在Google DeepMind的工作外,西尔弗还是伦敦大学学院(University College London)的教授。他仍保留着这一职务。

DeepMind诸多突破背后的关键人物

2010年DeepMind成立时,西尔弗是该公司最早的员工之一。他在大学时就认识DeepMind的联合创始人德米斯·哈萨比斯(Demis Hassabis)。西尔弗在公司早期的诸多突破中发挥了重要作用,包括2016年的标志性成果——证明AI程序可以在古老的策略游戏围棋中击败世界上最优秀的人类选手。

他还是开发以下项目的核心团队成员:一款能在复杂视频游戏《星际争霸2》(Starcraft 2)中击败世界顶尖人类玩家的AI程序;AlphaZero,一款能以超人类水平下国际象棋、将棋和围棋的AI;以及一款即使在完全不了解游戏规则的情况下,也能比人类更熟练掌握多种游戏的AI。

最近,他与DeepMind团队合作创建了一个能成功解答国际数学奥林匹克竞赛问题的AI系统。他还是2023年谷歌原始Gemini AI模型家族首次亮相的研究论文的作者之一。如今,Gemini已成为谷歌领先的商业AI产品和品牌。

寻找通往AI“超级智能”的路径

据了解西尔弗想法的人士透露,他曾告诉朋友,自己希望回归“解决AI领域最困难问题的敬畏与好奇”,并将超级智能——即比任何人类都聪明、甚至可能比全人类都聪明的AI——视为该领域最大的未解决挑战。

近年来,还有几位知名AI研究人员离开老牌AI实验室,创立致力于追求超级智能的初创企业。OpenAI前首席科学家伊利亚·苏茨克韦尔(Ilya Sutskever)于2024年创立了一家名为Safe Superintelligence(SSI)的公司。该公司迄今已获得____风险投资资金,据报道估值高达300亿美元。西尔弗的一些曾参与AlphaGo、AlphaZero和MuZero项目的同事最近也离职创立了Reflection AI,这是一家同样宣称追求超级智能的AI初创企业。与此同时,____去年____围绕一个新的“Superintelligence Labs”展开,该实验室由Scale AI前首席执行官兼创始人亚历山大·王(Alexandr Wang)领导。

超越语言模型

西尔弗以其在强化学习方面的研究而闻名,强化学习是一种通过经验而非历史数据训练AI模型的方法。在强化学习中,模型会采取行动(通常在游戏或模拟器中),然后收到关于这些行动是否有助于实现目标的反馈。通过多次行动中的试错,AI学会实现目标的最佳方法。

这位研究人员常被认为是强化学习最教条的支持者之一,他认为这是创造有朝一日能超越人类知识的人工智能的唯一途径。

在4月发布的Google DeepMind制作的播客中,他表示,大型语言模型(LLMs)——这种引发近期大部分AI热潮的AI类型——很强大,但也受限于人类知识。他说:“我们希望超越人类已知的领域,要做到这一点,我们需要一种不同的方法,这种方法将要求我们的AI真正自己解决问题,发现人类不知道的新事物。”他呼吁AI进入一个以强化学习为基础的新“经验时代”。

目前,LLMs有一个使用所谓无监督学习的“预训练”开发阶段。它们摄入大量文本,学习预测在给定语境中统计上最可能跟随其他单词的单词。然后它们进入“后训练”开发阶段,该阶段确实使用一些强化学习,通常由人类评估者查看模型的输出并给予AI反馈,有时只是点赞或点踩。通过这种反馈,模型生成有用输出的倾向得到增强。

但这种训练最终依赖于人类的知识——既是因为预训练阶段依赖于人类过去所学和记录的内容,也是因为LLM后训练进行强化学习的方式最终基于人类偏好。不过,在某些情况下,人类的直觉可能是错误的或短视的。 

例如,著名的是,在2016年AlphaGo与围棋世界冠军李世石的第二场比赛的第37手,AlphaGo下了一步非常非常规的棋,所有评论这场比赛的人类专家都确信这是一步错棋。但后来证明,这步棋是AlphaGo赢得那场比赛的关键。同样,人类象棋选手常将AlphaZero的下棋方式描述为“外星式”——但其反直觉的走法往往被证明是绝妙的。

如果人类评估者在LLM后训练使用的强化学习过程中对这样的走法进行评判,他们可能会给这些走法“点踩”,因为在人类专家看来它们像是错误。这就是为什么像西尔弗这样的强化学习纯粹主义者说,要实现超级智能,AI不仅要超越人类知识,还需要抛弃人类知识,从零开始学习实现目标,从第一原理出发。

据了解西尔弗想法的人士透露,他表示Ineffable Intelligence的目标是打造“一个不断学习的超级智能,能自我发现所有知识的基础”。 

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。