要約
すべての人の幸福を最大化する決定を下す方法の問題は、人類にとって有益で危害のない言語モデルを設計することに非常に関連しています。
功利主義のジレンマを使用してLLMの道徳的判断を評価するために、最大の優れたベンチマークを紹介します。
15の多様なLLMにわたる分析は、確立された道徳理論から分かれ、人口の道徳的基準を築く一貫してエンコードされた道徳的好みを明らかにしています。
ほとんどのLLMは、公平な慈悲と道具的危害の拒絶に対する著しい選好を持っています。
これらの発見は、LLMSの「人工的な道徳的コンパス」を示しており、彼らの道徳的整合についての洞察を提供します。
要約(オリジナル)
The question of how to make decisions that maximise the well-being of all persons is very relevant to design language models that are beneficial to humanity and free from harm. We introduce the Greatest Good Benchmark to evaluate the moral judgments of LLMs using utilitarian dilemmas. Our analysis across 15 diverse LLMs reveals consistently encoded moral preferences that diverge from established moral theories and lay population moral standards. Most LLMs have a marked preference for impartial beneficence and rejection of instrumental harm. These findings showcase the ‘artificial moral compass’ of LLMs, offering insights into their moral alignment.
arxiv情報
著者 | Giovanni Franco Gabriel Marraffini,Andrés Cotton,Noe Fabian Hsueh,Axel Fridman,Juan Wisznia,Luciano Del Corro |
発行日 | 2025-03-25 12:29:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google