麻省理工学院研究：AI 仍多为“基本合格”水平，擅长处理数千项任务

(SeaPRwire) – 在美国，越来越多的办公室工作人员在日常工作中尝试使用人工智能，他们可能对自己的长期工作稳定性产生过一些疑虑。

然而，根据MIT最近发布的数据，尽管人工智能在过去几年中取得了诸多改进，但它在特定的工作任务中仍然只能达到较低的标准。即便如此，它仍可能犯下一些严重的错误。

对于担心自己很快会被人工智能取代的员工来说，MIT的最新研究可能会让他们感到宽慰，这项研究将人工智能驱动的工作岗位取代的叙事描绘成一部快节奏的动作片，更像是一篇引人深思的长篇评论。

周四发布的一项初步研究结果显示，人工智能在完成各种职业中的各种任务方面正在逐步改进。但在大多数情况下，目前可用模型的表现与一个心不在焉的实习生相似——只能达到最低基准，并且在没有人工指导的情况下，整体上难以产出高质量的工作成果。

跨过门槛

MIT的研究人员使用了包括Claude、Gemini和ChatGPT等版本的41种不同的LLM，分析了美国劳工部列出的各种职位中超过11,000项主要基于文本的任务的表现。然后，由在这些领域具有实际工作经验的人类对它们的输出进行评分。目标是查看人工智能替代者在不经人工编辑的情况下，能够产生经理认为可接受的输出的频率，然后评估其质量。

研究人员发现，多年来人工智能在许多类型的工作中变得更加可靠，但一旦提高要求或标准，它仍然会力不从心。MIT的研究使用了1-9分的评分标准来评判人工智能的表现，其中7分被定义为“最低限度足够”，意味着工作本身可用且无需编辑。截至2025年末，人工智能模型在约65%的任务中得分达到7分。

对于考虑用人工智能取代部分劳动力的公司来说，最重要的是，MIT的数据表明人工智能在执行更复杂的任务时会遇到困难。无论人工智能模型有多少时间来完成一项任务，在评定为9分或“优秀”质量分数时的成功概率从未超过50%。换句话说，当一项工作需要多个步骤、创造力或精确性时，人工智能替代者更有可能失败而不是成功。

这项研究与企业界当前人工智能采用的一些叙事相符。使用人工智能的公司更有可能自动化那些曾经留给入门级职位的常规任务和角色，而一些高度专业化的技能，特别是数字技能，实际上与更高的工资溢价相关。

这在MIT的数据中得到了体现，数据显示法律和IT等技术性较强的职位平均成功率较低，而人工智能模型在处理与建筑和维护职业相关的文本任务时通常更容易。

那些尝试完全自动化部分工作量的公司已经经历了一些“成长的烦恼”。去年，Deloitte为澳大利亚和加拿大的政府客户制作的两份报告都被发现充斥着虚构内容。CNET和Sports Illustrated等媒体也曾被发现使用人工智能生成不准确的故事，并署上虚构的作者姓名。律师们也曾依赖人工智能来准备诉状，一家律师事务所去年公开道歉，因为在其一宗破产案件的申请中使用了人工智能生成的虚假引文。

轶事证据和MIT的数据表明，人工智能仍然需要人工的介入才能最大化其优势，尽管该技术仍在快速改进。MIT研究人员估计，由于模型能力增强，人工智能在所分析任务中的成功率每年可提高高达11个百分点。

作者估计，到2029年，大多数人工智能模型将能够在最低限度足够的基础上完成80%到95%的文本任务。

人工智能是否能够达到优秀甚至完美的表现仍然未知。

研究人员写道：“广泛的自动化，尤其是在对错误容忍度较低的领域，可能仍有相当长的距离。”

人工智能或许能够完成起草、发送电子邮件和进行数字计算等基本工作，但它尚未达到人类仍然能够脱颖而出的优秀表现领域。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布，覆盖超过6,500个媒体库、86,000名编辑和记者，以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。