Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions

要約

汎用 AI の最近の進歩により、意図された目標、倫理原則、個人とグループの価値観に向かって AI システムを導くことの重要性が浮き彫りになり、これは調整として広く認識されている概念です。
しかし、人間と AI の整合性の定義と範囲が明確になっていないことが大きな障害となり、この整合性を達成するための研究領域を越えた共同作業を妨げています。
特に、ML および哲学指向の調整研究では、AI の調整を、継続的な相互調整の問題ではなく、静的で一方向のプロセス (つまり、AI システムの目的が人間と一致することを保証することを目的とする) として見なすことがよくあります [429]。
この視点では、長期的な相互作用やアライメントの動的な変化がほとんど無視されています。
これらのギャップを理解するために、ヒューマン コンピューター インタラクション (HCI)、自然言語処理 (NLP)、機械学習 (ML) などの複数のドメインにまたがる、2019 年から 2024 年 1 月までに発行された 400 以上の論文の体系的なレビューを紹介します。
私たちは人間と AI の連携を特徴付け、定義し、範囲を定めます。
ここから、人間中心の観点から文献を整理するための「人間とAIの双方向連携」という概念的枠組みを提示します。
この枠組みには、1) 人間が決定した意図した結果を AI が生み出すことを保証する、AI を人間に合わせるという従来の研究と、2) 人間と AI を調整するという提案された概念 (個人と社会が認知面と社会の両面で AI の進歩に適応するのを助けることを目的とする) の両方が含まれます。
行動的に。
さらに、人間の価値観、交流テクニック、評価に関する議論など、文献分析から得られた重要な発見を明確に示します。
将来の研究への道を開くために、私たちは将来の方向性に関する 3 つの主要な課題を想定し、潜在的な将来の解決策の例を提案します。

要約(オリジナル)

Recent advancements in general-purpose AI have highlighted the importance of guiding AI systems towards the intended goals, ethical principles, and values of individuals and groups, a concept broadly recognized as alignment. However, the lack of clarified definitions and scopes of human-AI alignment poses a significant obstacle, hampering collaborative efforts across research domains to achieve this alignment. In particular, ML- and philosophy-oriented alignment research often views AI alignment as a static, unidirectional process (i.e., aiming to ensure that AI systems’ objectives match humans) rather than an ongoing, mutual alignment problem [429]. This perspective largely neglects the long-term interaction and dynamic changes of alignment. To understand these gaps, we introduce a systematic review of over 400 papers published between 2019 and January 2024, spanning multiple domains such as Human-Computer Interaction (HCI), Natural Language Processing (NLP), Machine Learning (ML), and others. We characterize, define and scope human-AI alignment. From this, we present a conceptual framework of ‘Bidirectional Human-AI Alignment’ to organize the literature from a human-centered perspective. This framework encompasses both 1) conventional studies of aligning AI to humans that ensures AI produces the intended outcomes determined by humans, and 2) a proposed concept of aligning humans to AI, which aims to help individuals and society adjust to AI advancements both cognitively and behaviorally. Additionally, we articulate the key findings derived from literature analysis, including discussions about human values, interaction techniques, and evaluations. To pave the way for future studies, we envision three key challenges for future directions and propose examples of potential future solutions.

arxiv情報

著者 Hua Shen,Tiffany Knearem,Reshmi Ghosh,Kenan Alkiek,Kundan Krishna,Yachuan Liu,Ziqiao Ma,Savvas Petridis,Yi-Hao Peng,Li Qiwei,Sushrita Rakshit,Chenglei Si,Yutong Xie,Jeffrey P. Bigham,Frank Bentley,Joyce Chai,Zachary Lipton,Qiaozhu Mei,Rada Mihalcea,Michael Terry,Diyi Yang,Meredith Ringel Morris,Paul Resnick,David Jurgens
発行日 2024-06-17 16:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク