AI Alignment: A Comprehensive Survey

要約

AI アラインメントは、AI システムが人間の意図や価値観に沿って動作するようにすることを目的としています。
AI システムの機能が向上するにつれて、AI システムの調整不良に関連する潜在的な大規模リスクが顕著になります。
数百人のAI専門家や著名人がAIのリスクについて懸念を表明し、「AIによる絶滅のリスクを軽減することは、パンデミックや核戦争などの他の社会規模のリスクと並んで世界的な優先事項であるべきだ」と主張している。
アライメント分野の包括的かつ最新の概要を提供するために、この調査報告書では、アライメントの中核となる概念、方法論、実践について詳しく掘り下げています。
私たちは、AI 調整の主要な目標として RICE 原則、つまり堅牢性、解釈可能性、制御可能性、倫理性を特定しています。
これら 4 つの原則に基づいて、現在のアライメント研究の概要を概説し、それらを 2 つの主要な要素、つまり前方アライメントと後方アライメントに分解します。
前者は、調整トレーニングを通じて AI システムを調整することを目的とし、後者は、システムの調整に関する証拠を取得し、調整不良のリスクの悪化を回避するためにシステムを適切に管理することを目的としています。
前方アライメントと後方アライメントは反復プロセスを形成し、前方プロセスからの AI システムのアライメントが後方プロセスで検証されると同時に、次のラウンドの前方アライメントの最新の目標が提供されます。
フォワードアラインメントについては、フィードバックからの学習と分布シフトの下での学習について説明します。
後方連携では、AI システムのライフサイクルのあらゆる段階に適用される保証手法とガバナンスの実践について説明します。
また、チュートリアル、論文集、ブログ投稿、その他のリソースを備えた Web サイト (www.alignmentsurvey.com) をリリースし、継続的に更新しています。

要約(オリジナル)

AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, the potential large-scale risks associated with misaligned AI systems become salient. Hundreds of AI experts and public figures have expressed concerns about AI risks, arguing that ‘mitigating the risk of extinction from AI should be a global priority, alongside other societal-scale risks such as pandemics and nuclear war’. To provide a comprehensive and up-to-date overview of the alignment field, in this survey paper, we delve into the core concepts, methodology, and practice of alignment. We identify the RICE principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality. Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems’ alignment and govern them appropriately to avoid exacerbating misalignment risks. Forward alignment and backward alignment form a recurrent process where the alignment of AI systems from the forward process is verified in the backward process, meanwhile providing updated objectives for forward alignment in the next round. On forward alignment, we discuss learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices that apply to every stage of AI systems’ lifecycle. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.

arxiv情報

著者 Jiaming Ji,Tianyi Qiu,Boyuan Chen,Borong Zhang,Hantao Lou,Kaile Wang,Yawen Duan,Zhonghao He,Jiayi Zhou,Zhaowei Zhang,Fanzhi Zeng,Kwan Yee Ng,Juntao Dai,Xuehai Pan,Aidan O’Gara,Yingshan Lei,Hua Xu,Brian Tse,Jie Fu,Stephen McAleer,Yaodong Yang,Yizhou Wang,Song-Chun Zhu,Yike Guo,Wen Gao
発行日 2023-11-01 14:18:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク