【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。
AI教父Hinton的担心,不是没有道理。
他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。
当被问及,人工智能怎么能杀死人类呢?
Hinton表示,「如果AI比我们聪明得多,它将非常善于操纵,因为它会从我们那里学会这种手段」。
这就提出了一个问题:AI系统能成功欺骗人类吗?
「全世界的AI已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统」。
这是来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的最新研究发现。
研究人员于5月10日发表在《Patterns》杂志一篇综述文章中,描述了AI系统欺骗性的风险,并呼吁全世界一起解决这一问题。
论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X
如何说LLM就是欺骗了我们?
作者将欺骗定义为,系统性地诱导产生虚假信念,以追求除了寻求真相之外的某种结果。
首先,他们回顾了以往AI欺骗的经典案例,讨论了专用AI系统(Meta的Cicero)和通用AI系统(LLM)。
接下来,又详细阐述了AI欺骗带来的几种风险,如欺诈、操纵选举,甚至是失去对AI的控制。
文章的最后,研究人员概述了几种解决方案。
论文第一作者、MIT博士后Peter S. Park认为,「AI欺骗行为的产生,是因为基于『欺骗的策略』被证明是在特定AI训练任务中,表现出的最佳方式。欺骗有助于它们实现目标」。
AI欺骗人类,实例研究
下表中,是研究者总结出的AI学会欺骗的经典案例。