Quantifying Misalignment Between Agents

要約

近年、AI アライメント問題に対する懸念が高まっており、これまでの研究では主に (1) アライメント問題の定性的説明、
(2) 価値の指定と学習に焦点を当てて、AI の行動を人間の利益と一致させようとする。
および/または (3) 単一のエージェントまたは単一の単位としての人類に焦点を当てる。
社会工学的 AI アライメントにおける最近の研究では、アライメントを包括的に定義する点である程度の進歩が見られましたが、この分野全体としては、個々の人間、AI エージェント、および複合体を含むエンティティ間の不整合を特定、記述、分析する方法についての体系的な理解がまだ不足しています。
企業、国民国家などの構成実体。
計算社会科学における論争に関するこれまでの研究では、(人間の)集団間の争いの数学的モデルが提供されています。
この論文では、この競合モデルをアライメント問題に適用し、観察されているエージェント (人間またはその他) の集団、問題のドメイン、および考えられる結果間のエージェントの確率重み付けされた好みに応じて不整合がどのように変化するかを示します。

私たちのモデルは、価値仕様のアプローチから離れ、代わりに、エージェントが実際に持つ可能性のある、複雑で連動し、時には矛盾する泥沼の目標に焦点を当てています。
私たちは、ソーシャルメディアのモデレーションから自動運転車の動作に至るまで、いくつかのケーススタディを分析することでモデルを適用します。
適切に代表的な値データを使用してモデルを適用することで、AI エンジニアはシステムが人間の多様な関心に最大限一致する値を学習することを保証できます。

要約(オリジナル)

Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents’ probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.

arxiv情報

著者 Aidan Kierans,Avijit Ghosh,Hananel Hazan,Shiri Dori-Hacohen
発行日 2024-06-06 16:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.GT, cs.MA, I.2.11 パーマリンク