【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。
AI教父Hinton的担心,不是没有道理。
他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。
当被问及,人工智能怎么能杀死人类呢?
Hinton表示,「如果AI比我们聪明得多,它将非常善于操纵,因为它会从我们那里学会这种手段」。
这就提出了一个问题:AI系统能成功欺骗人类吗?
「全世界的AI已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统」。
这是来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的最新研究发现。
研究人员于5月10日发表在《Patterns》杂志一篇综述文章中,描述了AI系统欺骗性的风险,并呼吁全世界一起解决这一问题。
论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X
2022年,Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后,达到「人类水平」时,引发一阵轰动。
尽管CICERO没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。
然而,MIT等研究人员在分析中发现,最引人瞩目的AI欺骗例子,便是CICERO。
在战略游戏「星际争霸II」中,AI为了击败对手,竟学会了虚假攻击。
这是DeepMind开发的自主AI——AlphaStar。
有些情况,自然而然地会让人工智能学会如何欺骗。
比如,德州扑克游戏中,玩家看不到对方的牌,所以扑克为玩家提供了很多机会来歪曲自己的实力,获得优势。
Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛,完全具备了虚张声势的能力。
此外,研究人员还在经济谈判中,观察到了AI欺骗。
同样是Meta的一个研究团队训练的AI系统,并让其与人类玩谈判游戏。
引人注目的是,AI系统学会了歪曲自己的偏好,以便在谈判中占据上风。
当今,AI训练的一种流行方法是——人类反馈强化学习(RLHF)。
然而,RLHF允许AI系统学会欺骗人类审查员,使他们相信任务已经成功完成,而实际上并没有真正完成该任务。