要約
大規模言語モデルは、応答を調整する人間のフィードバックを集中的に使用することなどにより、人間によって肯定的に評価される回答を提供することで、複雑なタスクを解決する能力を実証してきました。
しかし、人間のフィードバックを通じて伝わる暗示性は、真実の事実ではなく、ユーザーの信念や誤解を招くプロンプトに対応する応答を生成する傾向を高めます。これは、おべっかとして知られる行動です。
この現象により、バイアス、堅牢性が低下し、その結果、信頼性が低下します。
この論文では、大規模言語モデル (LLM) がおべっかな行動に対する暗示の可能性に光を当て、さまざまなタスクに対する人間の影響によるプロンプトを介してこれらの傾向を実証しました。
私たちの調査により、LLMは、事実に基づいて反対の反応を引き出すべき主観的な意見や発言を含む質問に応答するときに、おべっかな傾向を示すことが明らかになりました。
対照的に、客観的な答えがある数学的タスクやクエリに直面した場合、さまざまなスケールのこれらのモデルは、正しい答えを提供する自信を示してユーザーのヒントに従っていないように見えます。
要約(オリジナル)
Large Language Models have been demonstrating the ability to solve complex tasks by delivering answers that are positively evaluated by humans due in part to the intensive use of human feedback that refines responses. However, the suggestibility transmitted through human feedback increases the inclination to produce responses that correspond to the users’ beliefs or misleading prompts as opposed to true facts, a behaviour known as sycophancy. This phenomenon decreases the bias, robustness, and, consequently, their reliability. In this paper, we shed light on the suggestibility of Large Language Models (LLMs) to sycophantic behaviour, demonstrating these tendencies via human-influenced prompts over different tasks. Our investigation reveals that LLMs show sycophantic tendencies when responding to queries involving subjective opinions and statements that should elicit a contrary response based on facts. In contrast, when confronted with mathematical tasks or queries that have an objective answer, these models at various scales seem not to follow the users’ hints by demonstrating confidence in delivering the correct answers.
arxiv情報
著者 | Leonardo Ranaldi,Giulia Pucci |
発行日 | 2024-04-19 15:36:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google