"MIT揭秘：AI是否已掌握欺骗技巧？揭开AI佯攻击背后的真相"_网络推广

```html

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI系统能成功欺骗人类吗?

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢?

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题:AI系统能成功欺骗人类吗?

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

2022年，Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后，达到「人类水平」时，引发一阵轰动。

尽管CICERO没能战胜世界冠军，但它在与人类参与者的比赛中进入了前10%，表现足够优秀。

然而，MIT等研究人员在分析中发现，最引人瞩目的AI欺骗例子，便是CICERO。

在战略游戏「星际争霸II」中，AI为了击败对手，竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

有些情况，自然而然地会让人工智能学会如何欺骗。

比如，德州扑克游戏中，玩家看不到对方的牌，所以扑克为玩家提供了很多机会来歪曲自己的实力，获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛，完全具备了虚张声势的能力。

此外，研究人员还在经济谈判中，观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统，并让其与人类玩谈判游戏。

引人注目的是，AI系统学会了歪曲自己的偏好，以便在谈判中占据上风。

当今，AI训练的一种流行方法是——人类反馈强化学习（RLHF）。

然而，RLHF允许AI系统学会欺骗人类审查员，使他们相信任务已经成功完成，而实际上并没有真正完成该任务。