Language Model Alignment in Multilingual Trolley Problems

要約

私たちは、多言語トロリー問題における大規模言語モデル (LLM) と人間の好みとの道徳的整合性を評価します。
200 か国以上で 4,000 万を超える人間の判断を収集するモラル マシン実験を基に、私たちは MultiTP と呼ばれる 100 以上の言語で道徳的ジレンマのビネットをまとめたクロスリンガル コーパスを開発しました。
このデータセットにより、多様な言語コンテキストにおける LLM の意思決定プロセスの評価が可能になります。
私たちの分析では、19 の異なる LLM と人間の判断との整合性を調査し、種、性別、フィットネス、ステータス、年齢、関与する命の数という 6 つの道徳的側面にわたる好みを捉えています。
これらの好みを言語話者の人口統計的分布と関連付け、さまざまなプロンプト言い換えに対する LLM の反応の一貫性を調べることにより、私たちの調査結果は、LLM の言語を超えた倫理的バイアスとそれらの交差点についての洞察を提供します。
私たちは、言語間での整合性に大きな差異があることを発見し、AI システムにおける統一的な道徳的推論の仮定に疑問を投げかけ、AI 倫理に多様な視点を組み込むことの重要性を強調しました。
この結果は、世界中で公正かつ公平な AI 相互作用を確保するために、責任ある AI 研究における多言語の側面の統合に関するさらなる研究の必要性を強調しています。
私たちのコードとデータは https://github.com/causalNLP/moralmachine にあります。

要約(オリジナル)

We evaluate the moral alignment of large language models (LLMs) with human preferences in multilingual trolley problems. Building on the Moral Machine experiment, which captures over 40 million human judgments across 200+ countries, we develop a cross-lingual corpus of moral dilemma vignettes in over 100 languages called MultiTP. This dataset enables the assessment of LLMs’ decision-making processes in diverse linguistic contexts. Our analysis explores the alignment of 19 different LLMs with human judgments, capturing preferences across six moral dimensions: species, gender, fitness, status, age, and the number of lives involved. By correlating these preferences with the demographic distribution of language speakers and examining the consistency of LLM responses to various prompt paraphrasings, our findings provide insights into cross-lingual and ethical biases of LLMs and their intersection. We discover significant variance in alignment across languages, challenging the assumption of uniform moral reasoning in AI systems and highlighting the importance of incorporating diverse perspectives in AI ethics. The results underscore the need for further research on the integration of multilingual dimensions in responsible AI research to ensure fair and equitable AI interactions worldwide. Our code and data are at https://github.com/causalNLP/moralmachine

arxiv情報

著者 Zhijing Jin,Max Kleiman-Weiner,Giorgio Piatti,Sydney Levine,Jiarui Liu,Fernando Gonzalez,Francesco Ortu,András Strausz,Mrinmaya Sachan,Rada Mihalcea,Yejin Choi,Bernhard Schölkopf
発行日 2024-10-22 06:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク