要約
AIシステムが幅広いタスクで人間の能力に一致するか、それを超えると、人間が自分の行動を効率的に判断することが困難になる可能性があります。
提案されている解決策の1つは、別の超人的システムを活用して、議論を介してシステムの出力の欠陥を指摘することです。
このペーパーでは、AIの安全性に関する議論の価値、および議論を行うために必要な仮定とさらなる研究の概要を説明します。
「Alignment Safety Case」をスケッチすることでそうします。これは、AIシステムがそうすることができるにもかかわらず、ひどい害につながる可能性のある行動を自律的に行わないという議論です。
このスケッチは、たとえば誤った結果を生成することにより、研究を妨害するAI会社内のAI R \&Dエージェントのリスクに焦点を当てています。
これを防ぐために、エージェントは、システムに正直であることを教えるために、探査保証の対象となる議論によって訓練されます。
誠実さは、オンライントレーニングを介して展開を通して維持されます。
安全性のケースは、4つの重要な主張に基づいています。(1)エージェントは討論ゲームで良くなり、(2)討論ゲームの良好なパフォーマンスは、システムがほとんど正直であることを意味します。
私たちは、解決されれば、これをAIシステムが安全であるという説得力のある議論にすることができるというオープンな研究問題を特定します。
要約(オリジナル)
If AI systems match or exceed human capabilities on a wide range of tasks, it may become difficult for humans to efficiently judge their actions — making it hard to use human feedback to steer them towards desirable traits. One proposed solution is to leverage another superhuman system to point out flaws in the system’s outputs via a debate. This paper outlines the value of debate for AI safety, as well as the assumptions and further research required to make debate work. It does so by sketching an “alignment safety case” — an argument that an AI system will not autonomously take actions which could lead to egregious harm, despite being able to do so. The sketch focuses on the risk of an AI R\&D agent inside an AI company sabotaging research, for example by producing false results. To prevent this, the agent is trained via debate, subject to exploration guarantees, to teach the system to be honest. Honesty is maintained throughout deployment via online training. The safety case rests on four key claims: (1) the agent has become good at the debate game, (2) good performance in the debate game implies that the system is mostly honest, (3) the system will not become significantly less honest during deployment, and (4) the deployment context is tolerant of some errors. We identify open research problems that, if solved, could render this a compelling argument that an AI system is safe.
arxiv情報
著者 | Marie Davidsen Buhl,Jacob Pfau,Benjamin Hilton,Geoffrey Irving |
発行日 | 2025-05-08 16:52:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google