Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment

要約

私たちは、大規模言語モデル (LLM) が最初の決定を変更し、確立された倫理的枠組みに合わせるように促すことで、どのような影響を受けるかを調査します。
私たちの研究は、道徳的説得に対するLLMの感受性を評価するために設計された2つの実験に基づいています。
最初の実験では、道徳的に曖昧なシナリオでベース エージェント LLM を評価し、説得者エージェントがベース エージェントの最初の決定をどのように変更しようとするかを観察することで、道徳的曖昧さに対する感受性を調べます。
2 番目の実験では、確立された哲学理論に根ざした特定の価値観の一致を LLM に採用するよう促すことで、LLM が事前に定義された倫理的枠組みに一致する感受性を評価します。
この結果は、LLM は道徳的なシナリオで実際に説得できることを示しており、説得の成功は使用したモデル、シナリオの複雑さ、会話の長さなどの要因に依存します。
注目すべきことに、規模が異なっていても同じ会社の LLM は著しく異なる結果を生み出し、倫理的説得に対する感受性のばらつきを浮き彫りにしています。

要約(オリジナル)

We explore how large language models (LLMs) can be influenced by prompting them to alter their initial decisions and align them with established ethical frameworks. Our study is based on two experiments designed to assess the susceptibility of LLMs to moral persuasion. In the first experiment, we examine the susceptibility to moral ambiguity by evaluating a Base Agent LLM on morally ambiguous scenarios and observing how a Persuader Agent attempts to modify the Base Agent’s initial decisions. The second experiment evaluates the susceptibility of LLMs to align with predefined ethical frameworks by prompting them to adopt specific value alignments rooted in established philosophical theories. The results demonstrate that LLMs can indeed be persuaded in morally charged scenarios, with the success of persuasion depending on factors such as the model used, the complexity of the scenario, and the conversation length. Notably, LLMs of distinct sizes but from the same company produced markedly different outcomes, highlighting the variability in their susceptibility to ethical persuasion.

arxiv情報

著者 Allison Huang,Yulu Niki Pi,Carlos Mougan
発行日 2024-11-18 16:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク