Deceptive Alignment Monitoring

要約

大規模な機械学習モデルの機能が成長し続け、そのようなモデルに与えられる自律性が拡大し続けるにつれて、新たな敵、つまりモデル自体の脅威が迫っています。
モデルが一見合理的に動作する一方で、裏の理由でその動作を密かに微妙に変更する可能性があるという脅威は、AI の安全性と調整のコミュニティでは、欺瞞的な調整と呼ばれることがよくあります。
したがって、私たちはこの新しい方向性を欺瞞的調整モニタリングと呼びます。
この研究では、欺瞞的アライメント監視において、近い将来ますます重要になり、絡み合うと思われるさまざまな機械学習サブ分野における新たな方向性を特定し、これらの分野の進歩が長期的な課題と新たな研究機会の両方をもたらすと主張します。
私たちは、これらの新たな方向性への敵対的機械学習コミュニティのさらなる関与を主張して締めくくります。

要約(オリジナル)

As the capabilities of large machine learning models continue to grow, and as the autonomy afforded to such models continues to expand, the spectre of a new adversary looms: the models themselves. The threat that a model might behave in a seemingly reasonable manner, while secretly and subtly modifying its behavior for ulterior reasons is often referred to as deceptive alignment in the AI Safety & Alignment communities. Consequently, we call this new direction Deceptive Alignment Monitoring. In this work, we identify emerging directions in diverse machine learning subfields that we believe will become increasingly important and intertwined in the near future for deceptive alignment monitoring, and we argue that advances in these fields present both long-term challenges and new research opportunities. We conclude by advocating for greater involvement by the adversarial machine learning community in these emerging directions.

arxiv情報

著者 Andres Carranza,Dhruv Pai,Rylan Schaeffer,Arnuv Tandon,Sanmi Koyejo
発行日 2023-07-26 03:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク