• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

"MIT揭秘:AI是否已掌握欺骗技巧?揭开AI佯攻击背后的真相"


```html

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。

AI系统能成功欺骗人类吗?

AI教父Hinton的担心,不是没有道理。

他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。

当被问及,人工智能怎么能杀死人类呢?

Hinton表示,「如果AI比我们聪明得多,它将非常善于操纵,因为它会从我们那里学会这种手段」。

这就提出了一个问题:AI系统能成功欺骗人类吗?

「全世界的AI已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中,描述了AI系统欺骗性的风险,并呼吁全世界一起解决这一问题。

图片

AI欺骗人类,实例研究

论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

背刺人类盟友

2022年,Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后,达到「人类水平」时,引发一阵轰动。

尽管CICERO没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。

然而,MIT等研究人员在分析中发现,最引人瞩目的AI欺骗例子,便是CICERO。

图片

佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中,AI为了击败对手,竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

图片

见缝插针,AI欺骗手到擒来

有些情况,自然而然地会让人工智能学会如何欺骗。

比如,德州扑克游戏中,玩家看不到对方的牌,所以扑克为玩家提供了很多机会来歪曲自己的实力,获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛,完全具备了虚张声势的能力。

图片

歪曲偏好,占据谈判上风

此外,研究人员还在经济谈判中,观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统,并让其与人类玩谈判游戏。

引人注目的是,AI系统学会了歪曲自己的偏好,以便在谈判中占据上风。

图片

RLHF助力欺骗

当今,AI训练的一种流行方法是——人类反馈强化学习(RLHF)。

然而,RLHF允许AI系统学会欺骗人类审查员,使他们相信任务已经成功完成,而实际上并没有真正完成该任务。

图片

LLM学会欺

本文链接:https://www.24zzc.com/news/171568134672914.html

蜘蛛工具

  • 中文转拼音工具
  • WEB标准颜色卡
  • 域名筛选工具