A Roadmap to Pluralistic Alignment

要約

AI システムの能力の向上と普及に伴い、AI システムがすべての人、つまり多様な価値観や視点を持つ人々に役立つように設計されることがますます重要になっています。
しかし、多元的な人間の価値観に役立つようにモデルを調整することは、未解決の研究課題のままです。
この記事では、特に言語モデルをテストベッドとして使用して、多元的調整へのロードマップを提案します。
私たちは、AI システムにおける多元性を定義して運用するための 3 つの可能な方法を特定し、形式化します。 1) 合理的な応答のスペクトルを提示する Overton 多元主義モデル。
2) 特定の視点を反映するように操縦できる、操縦可能な多元的モデル。
3) 分布上の特定の集団に合わせて適切に調整された分布的に多元的なモデル。
また、多元的ベンチマークの 3 つの可能なクラスについて形式化して議論します。1) 多目的ベンチマーク、2) モデルを任意のトレードオフに誘導するインセンティブを与えるトレードオフ操作可能なベンチマーク、3) 多様な人間を明示的にモデル化する陪審多元主義ベンチマーク
評価。
私たちはこのフレームワークを使用して、現在のアライメント技術は多元的 AI に対して根本的に制限されている可能性があると主張します。
実際、私たちは、私たち自身の実験と他の研究の両方から、標準的なアライメント手順がモデルの分布的多元性を軽減する可能性があるという経験的証拠を強調しており、多元的アライメントに関するさらなる研究の必要性を動機付けています。

要約(オリジナル)

With increased power and prevalence of AI systems, it is ever more critical that AI systems are designed to serve all, i.e., people with diverse values and perspectives. However, aligning models to serve pluralistic human values remains an open research question. In this piece, we propose a roadmap to pluralistic alignment, specifically using language models as a test bed. We identify and formalize three possible ways to define and operationalize pluralism in AI systems: 1) Overton pluralistic models that present a spectrum of reasonable responses; 2) Steerably pluralistic models that can steer to reflect certain perspectives; and 3) Distributionally pluralistic models that are well-calibrated to a given population in distribution. We also formalize and discuss three possible classes of pluralistic benchmarks: 1) Multi-objective benchmarks, 2) Trade-off steerable benchmarks, which incentivize models to steer to arbitrary trade-offs, and 3) Jury-pluralistic benchmarks which explicitly model diverse human ratings. We use this framework to argue that current alignment techniques may be fundamentally limited for pluralistic AI; indeed, we highlight empirical evidence, both from our own experiments and from other work, that standard alignment procedures might reduce distributional pluralism in models, motivating the need for further research on pluralistic alignment.

arxiv情報

著者 Taylor Sorensen,Jared Moore,Jillian Fisher,Mitchell Gordon,Niloofar Mireshghallah,Christopher Michael Rytting,Andre Ye,Liwei Jiang,Ximing Lu,Nouha Dziri,Tim Althoff,Yejin Choi
発行日 2024-07-15 13:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク