要約
AI アラインメントは、AI システムが人間の意図や価値観に沿って動作するようにすることを目的としています。
AI システムの能力が高まるにつれて、調整ミスによるリスクも増大します。
アライメント分野の包括的かつ最新の概要を提供するために、この調査では、アライメントの中核となる概念、方法論、および実践を詳しく掘り下げます。
まず、AI 調整の主要な目標として、堅牢性、解釈可能性、制御可能性、倫理性 (RICE) という 4 つの原則を特定します。
これら 4 つの原則に基づいて、現在のアライメント研究の概要を概説し、それらを 2 つの主要な要素、つまり前方アライメントと後方アライメントに分解します。
前者は、調整トレーニングを通じて AI システムを調整することを目的とし、後者は、システムの調整に関する証拠を取得し、調整不良のリスクの悪化を回避するためにシステムを適切に管理することを目的としています。
フォワードアラインメントについては、フィードバックから学習する手法と、分布シフトの下で学習する手法について説明します。
後方連携については、保証技術とガバナンスの実践について説明します。
また、チュートリアル、論文集、ブログ投稿、その他のリソースを備えた Web サイト (www.alignmentsurvey.com) をリリースし、継続的に更新しています。
要約(オリジナル)
AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems’ alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
arxiv情報
著者 | Jiaming Ji,Tianyi Qiu,Boyuan Chen,Borong Zhang,Hantao Lou,Kaile Wang,Yawen Duan,Zhonghao He,Jiayi Zhou,Zhaowei Zhang,Fanzhi Zeng,Kwan Yee Ng,Juntao Dai,Xuehai Pan,Aidan O’Gara,Yingshan Lei,Hua Xu,Brian Tse,Jie Fu,Stephen McAleer,Yaodong Yang,Yizhou Wang,Song-Chun Zhu,Yike Guo,Wen Gao |
発行日 | 2024-01-02 17:09:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google