要約
AIアライメントは、AIシステムを人間の意図や価値観に沿って行動させることを目的としている。AIシステムの能力が高まるにつれ、ミスアライメントによるリスクも高まっている。本調査では、アライメント分野の包括的かつ最新の概要を提供するため、アライメントの中核概念、方法論、実践について掘り下げる。まず、AIアライメントの主要な目的として、4つの原則を挙げる:頑健性(Robustness)、解釈可能性(Interpretability)、制御可能性(Controllability)、倫理性(Ethicality)である。これらの4つの原則に導かれ、現在のアライメント研究の状況を概説し、それらを2つの重要な構成要素、すなわちフォワード・アライメントとバックワード・アライメントに分解する。前者は、アライメント・トレーニングによってAIシステムをアライメントさせることを目的とし、後者は、システムのアライメントに関するエビデンスを得て、ミスアライメントのリスクを悪化させないように適切に制御することを目的としている。フォワード・アライメントについては、フィードバックからの学習と分布シフト下での学習の技術について議論する。バックワード・アライメントについては、保証手法とガバナンスの実践について説明する。 また、チュートリアル、論文集、ブログ記事、その他のリソースを掲載したウェブサイト(www.alignmentsurvey.com)を公開し、継続的に更新しています。
要約(オリジナル)
AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems’ alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
arxiv情報
著者 | Jiaming Ji,Tianyi Qiu,Boyuan Chen,Borong Zhang,Hantao Lou,Kaile Wang,Yawen Duan,Zhonghao He,Lukas Vierling,Donghai Hong,Jiayi Zhou,Zhaowei Zhang,Fanzhi Zeng,Juntao Dai,Xuehai Pan,Kwan Yee Ng,Aidan O’Gara,Hua Xu,Brian Tse,Jie Fu,Stephen McAleer,Yaodong Yang,Yizhou Wang,Song-Chun Zhu,Yike Guo,Wen Gao |
発行日 | 2025-04-04 11:14:49+00:00 |
arxivサイト | arxiv_id(pdf) |