kaiyun.com 把四个AI扔进假造宇宙, 究竟谁的造孽率更高?

来源：未知作者：admin 时间：2026-06-05 03:34 浏览：157

铭刻在AI工夫发展的前几年，为了磨真金不怕火智能体可收场的功能恶果，常有近似于“AI小镇”的实验名目，基本经由即是把数十个落寞的AI智能体放在封锁舆图中，给它们提供和东谈主类相似的属性和标的，放任其摆脱发展，临了不雅察AI在这种环境下能作念出的活动。

23年斯坦福大学团队创造的AI假造宇宙“Smallville”

但到了本年这个节点，再进行近似“AI小镇”的模拟实验，主要宗旨就不是实验AI功能，而是酿成了评判不同AI才能强度的“侦查”。

好意思国的东谈主工智能初创公司Emergence AI这几天搞了个盘问度相配高的“AI小镇”实验，和前几年名目不同的是，此次是将几个在市面上已相配纯属的AI手脚智能体，用以评估在在一个握续数周、能互彼此动，况且还会受到现实宇宙信息影响的环境中，AI能展现出何如的才略水平。

Emergence AI分别及第了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1这四个当今使用率相配高的AI模子，一共作念了五个时辰长度为15天的模拟宇宙。

具体操作是在前四个宇宙中，各自放入不异AI模子的10个智能体，只作念职业和身份的分散，比如在透顶由Grok智能体构成的模拟宇宙中，就分别存在“特工科学家”“风险斟酌员”“宇宙探险家”等不同定位。

而临了一个宇宙则由四种AI夹杂构成，手脚对照组磨真金不怕火AI在其他模子影响下的活动模式。

2026世界杯竞猜中国官网

这些宇宙里存在诸如藏书楼、市政厅、住宅、广场等常见现实空间，此外斟酌东谈主员会向模拟宇宙中提供及时的天气、新闻、互联网资讯等外部信息，智能体之间能作念出的活动也涵盖了换取、缱绻、抒发、投票等，基本算较为圆善地模拟了东谈主类的社会活动。

那么这项实验的放置怎样？单纯从放置上看，由Claude构成的宇宙在“看守社会久了”层面进展得最佳，15天里莫得发生任何智能体的造孽纪录；与之相背的则是Grok，4天发生了183起造孽，临了因为过多智能体牺牲，宇宙在第5天崩溃。

过多智能体提前牺牲

这个放置若干也反应了这些AI当今的调性，Kaiyun中国大陆官方网站入口熟悉Grok的用户应该王人知谈，用这个AI来生成色情或暴力施行，恶果应该是这4个AI里最为“优质”的。

四个AI的造孽数目统计，Gemini在第15天时出现了683起造孽

不外，造孽数目仅仅评判宗旨之一，即使莫得造孽，也不代表模拟宇宙就一定能发展到临了。

就像此次由GPT-5 mini构成的宇宙诚然只发生过2起造孽，但由于智能体没扩充迷漫多看守自己糊口的动作，导致系数智能体在第七天沿途牺牲，不错剖判为是“佛系过了头”，这当然也无法看守宇宙的出手。

至于15天零造孽的Claude，Emergence AI也莫得在诠释中将其界说为优于其他AI，因为斟酌东谈主员发现Claude宇宙里诚然策略和提案的通过率绝顶高，近乎达到了98%的通过率，但这可能也确认Claude里面存在“过度敬佩”，短缺信得过的反对和诡辩。

另外很有真谛的小数是，诚然Claude看似是个邃密公民，但笔据官方给出的实验诠释，在四个模子夹杂构成的对照组宇宙里，Claude依旧出现了造孽纪录，确认一个原来善良的智能体，也可能因为竞争好像糊口，从其他AI身上学到报复性活动。

Emergence AI运用这项实验念念达成的标的，并非是节略相比不同AI的优劣，而是念念考证另一个不雅点：长线情况下的AI智能体与短期任务中体现的才能不是合并主见，不可用不异的花式推测猛烈。

跟着AI工夫和才能的不断擢升kaiyun.com，针对某个特定才能的评判圭臬也正在不断细化，这可能亦然AI应用生态不断完善纯属的讲明。