要約
私たちは、最先端の囲碁 AI システム KataGo に対して敵対的なポリシーをトレーニングすることで攻撃し、超人的な設定で実行されている KataGo に対して 97% 以上の勝率を達成しました。
私たちの敵は、碁を上手に打っても勝つことができません。
その代わりに、彼らは KataGo を騙して重大な失敗を犯させます。
私たちの攻撃はゼロショットを他の超人的な囲碁 AI に転送し、人間の専門家がアルゴリズムの支援なしで実行して超人的な AI を常に倒すことができる程度には理解可能です。
私たちの攻撃によって明らかになった中心的な脆弱性は、私たちの攻撃を防御するよう敵対的に訓練された KataGo エージェントにも残ります。
私たちの結果は、超人的な AI システムであっても、驚くべき故障モードを抱えている可能性があることを示しています。
ゲームの例は https://go Attack.far.ai/ から入手できます。
要約(オリジナル)
We attack the state-of-the-art Go-playing AI system KataGo by training adversarial policies against it, achieving a >97% win rate against KataGo running at superhuman settings. Our adversaries do not win by playing Go well. Instead, they trick KataGo into making serious blunders. Our attack transfers zero-shot to other superhuman Go-playing AIs, and is comprehensible to the extent that human experts can implement it without algorithmic assistance to consistently beat superhuman AIs. The core vulnerability uncovered by our attack persists even in KataGo agents adversarially trained to defend against our attack. Our results demonstrate that even superhuman AI systems may harbor surprising failure modes. Example games are available https://goattack.far.ai/.
arxiv情報
著者 | Tony T. Wang,Adam Gleave,Tom Tseng,Kellin Pelrine,Nora Belrose,Joseph Miller,Michael D. Dennis,Yawen Duan,Viktor Pogrebniak,Sergey Levine,Stuart Russell |
発行日 | 2023-07-13 06:37:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google