1. "全球AI已学会欺骗人类？如何应对AI佯攻击，保护人类利益" 2. "MIT惊人发现：AI佯攻击败99.8%玩家，如何识破AI背刺，守护盟友安全"_网络推广

```html

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢?

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题:AI系统能成功欺骗人类吗?

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们?

作者将欺骗定义为，系统性地诱导产生虚假信念，以追求除了寻求真相之外的某种结果。

首先，他们回顾了以往AI欺骗的经典案例，讨论了专用AI系统（Meta的Cicero）和通用AI系统(LLM)。

接下来，又详细阐述了AI欺骗带来的几种风险，如欺诈、操纵选举，甚至是失去对AI的控制。

AI系统能成功欺骗人类吗?

文章的最后，研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为，「AI欺骗行为的产生，是因为基于『欺骗的策略』被证明是在特定AI训练任务中，表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类，实例研究

下表中，是研究者总结出的AI学会欺骗的经典案例。