要約
AIアライメントにおける現代の仕事は、多くの場合、人間のフィードバックに依存して、AIシステムを人間の好みと価値を教えることです。
しかし、AIシステムがより能力が高まるにつれて、人間のフィードバックはますます信頼できなくなります。
これにより、スケーラブルな監視の問題が発生します。人間の能力を超えるAIシステムを監督するにはどうすればよいですか?
この作業では、人間のフィードバックをよりよく解釈するために、AIシステムの行動に関する人間の評価者の信念をモデル化することを提案します。
私たちは人間の信念モデルを形式化し、理論的に人間の価値を推測する役割を分析します。
次に、この推論と曖昧さが消える条件に残りのあいまいさを特徴付けます。
正確な信念モデルへの依存を緩和するために、人間の信念モデルのカバーの緩和を紹介します。
最後に、基礎モデルを使用して信念モデルをカバーすることを提案し、スケーラブルな監視に対する新しい潜在的なアプローチを提供します。
要約(オリジナル)
Contemporary work in AI alignment often relies on human feedback to teach AI systems human preferences and values. Yet as AI systems grow more capable, human feedback becomes increasingly unreliable. This raises the problem of scalable oversight: How can we supervise AI systems that exceed human capabilities? In this work, we propose to model the human evaluator’s beliefs about the AI system’s behavior to better interpret the human’s feedback. We formalize human belief models and theoretically analyze their role in inferring human values. We then characterize the remaining ambiguity in this inference and conditions for which the ambiguity disappears. To mitigate reliance on exact belief models, we then introduce the relaxation of human belief model covering. Finally, we propose using foundation models to construct covering belief models, providing a new potential approach to scalable oversight.
arxiv情報
| 著者 | Leon Lang,Patrick Forré |
| 発行日 | 2025-02-28 17:39:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google