要約
大規模言語モデル (LLM) が現実世界の状況に導入されることが増えるにつれ、道徳的ジレンマに直面したときの意思決定を理解することが重要になります。
人間の道徳的嗜好に関する大規模な異文化間研究「モラルマシン実験」に触発され、私たちはLLMに対して同じ道徳的選択のセットを設定しました。
私たちは、主要な軸にわたってパラメトリックに変化させた道徳的ジレンマの 1,000 点のエピソードを 100 以上の言語に翻訳し、これらの各言語における LLM の好みを明らかにします。
次に、4,000 万件の人間の道徳的判断のデータセットを利用して、LLM の反応をそれらの言語を話す人間の反応と比較します。
英語、韓国語、ハンガリー語、中国語などの言語では LLM が人間の好みとより一致しているが、ヒンディー語やソマリ語 (アフリカ) などの言語ではあまり一致していないことがわかりました。
さらに、我々はLLMが彼らの道徳的選択に対して与える説明を特徴づけ、公平性がGPT-4の決定とGPT-3による功利主義の背後にある最も支配的な支持理由であることを発見した。
また、道徳的意思決定の一連のメタ特性の中で「言語の不平等」(異なる言語におけるモデルの異なる発達レベルとして定義します)も発見しました。
要約(オリジナル)
As large language models (LLMs) are deployed in more and more real-world situations, it is crucial to understand their decision-making when faced with moral dilemmas. Inspired by a large-scale cross-cultural study of human moral preferences, ‘The Moral Machine Experiment’, we set up the same set of moral choices for LLMs. We translate 1K vignettes of moral dilemmas, parametrically varied across key axes, into 100+ languages, and reveal the preferences of LLMs in each of these languages. We then compare the responses of LLMs to that of human speakers of those languages, harnessing a dataset of 40 million human moral judgments. We discover that LLMs are more aligned with human preferences in languages such as English, Korean, Hungarian, and Chinese, but less aligned in languages such as Hindi and Somali (in Africa). Moreover, we characterize the explanations LLMs give for their moral choices and find that fairness is the most dominant supporting reason behind GPT-4’s decisions and utilitarianism by GPT-3. We also discover ‘language inequality’ (which we define as the model’s different development levels in different languages) in a series of meta-properties of moral decision making.
arxiv情報
著者 | Zhijing Jin,Sydney Levine,Max Kleiman-Weiner,Giorgio Piatti,Jiarui Liu,Fernando Gonzalez Adauto,Francesco Ortu,András Strausz,Mrinmaya Sachan,Rada Mihalcea,Yejin Choi,Bernhard Schölkopf |
発行日 | 2024-07-02 14:02:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google