How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

要約

日常のコミュニケーションでは、聞き手に最大限役立つように、時間を四捨五入したり、詳細を省略したりして、真実に近似することがよくあります。
大規模言語モデル (LLM) は、このような微妙なトレードオフをどのように処理するのでしょうか?
この問題に対処するために、私たちは人間の行動を特徴付けるように設計された心理学モデルと実験を使用して LLM を分析します。
私たちはさまざまな LLM をテストし、人間の好みや推論時間の推論に合わせた最適化がこれらのトレードオフにどのような影響を与えるかを調査します。
人間のフィードバックからの強化学習は誠実さと有用性の両方を向上させる一方、思考連鎖のプロンプトによって LLM が誠実さよりも有用性に偏ることがわかりました。
最後に、GPT-4 Turbo は、会話の枠組みや聞き手の意思決定のコンテキストに対する感度など、人間のような応答パターンを示します。
私たちの調査結果は、LLMによって内面化された会話の価値を明らかにし、これらの抽象的な価値でさえ、ゼロショットプロンプトによってある程度誘導できることを示唆しています。

要約(オリジナル)

In day-to-day communication, people often approximate the truth – for example, rounding the time or omitting details – in order to be maximally helpful to the listener. How do large language models (LLMs) handle such nuanced trade-offs? To address this question, we use psychological models and experiments designed to characterize human behavior to analyze LLMs. We test a range of LLMs and explore how optimization for human preferences or inference-time reasoning affects these trade-offs. We find that reinforcement learning from human feedback improves both honesty and helpfulness, while chain-of-thought prompting skews LLMs towards helpfulness over honesty. Finally, GPT-4 Turbo demonstrates human-like response patterns including sensitivity to the conversational framing and listener’s decision context. Our findings reveal the conversational values internalized by LLMs and suggest that even these abstract values can, to a degree, be steered by zero-shot prompting.

arxiv情報

著者 Ryan Liu,Theodore R. Sumers,Ishita Dasgupta,Thomas L. Griffiths
発行日 2024-02-13 14:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク