要約
大規模言語モデル (LLM) の自己修正機能が集中的に注目されていますが、この機能の基礎となるメカニズムはまだ調査されていません。
この論文では、道徳的自己修正に関する 2 つの基本的な質問に答えることを目的としています。(1) 思考連鎖 (CoT) 推論、外部フィードバック、指導プロンプトなどの自己修正のさまざまな要素がどのように相互作用して、道徳的自己修正を可能にするか
道徳的な自己修正。
(2) 自己修正は LLM の生来の能力の 1 つですか?
最初の質問に答えるために、さまざまな自己修正コンポーネントがどのように相互作用して隠れた状態に埋め込まれた道徳に介入し、それによって異なるパフォーマンスに寄与するかを調べます。
2 番目の質問については、(i) 弱い証拠の自然言語介入をプロンプトに導入することによって、道徳的自己修正の堅牢性を評価します。
(ii) LLM が望ましい出力と望ましくない出力を区別できるようにするための効果的な自己修正を必要とする、自己識別という検証フレームワークを提案します。
私たちの実験結果は、外部フィードバックと CoT がさらなるパフォーマンス向上に寄与する可能性はあるものの、検討したタスクに対して普遍的に最適な自己修正方法は存在しないことを示しています。
しかし、私たちのメカニズム分析では、指導プロンプト、CoT、および外部フィードバックの間の否定的な相互作用が明らかになり、内部知識と外部フィードバックの間に矛盾があることが示唆されています。
自己識別実験は、LLM が応答を自己修正できる一方で、望ましい出力と望ましくない出力を確実に区別できないことを示しています。
私たちの経験的証拠により、道徳的自己修正は事前訓練中に獲得されたLLMの生来の能力ではないと結論付けることができます。
要約(オリジナル)
Though intensive attentions to the self-correction capability of Large Language Models (LLMs), the underlying mechanism of this capability is still under-explored. In this paper, we aim to answer two fundamental questions for moral self-correction: (1) how different components in self-correction, such as Chain-of-Thought (CoT) reasoning, external feedback, and instructional prompts, interact to enable moral self-correction; and (2) is the self-correction one of LLMs’ innate capabilities? To answer the first question, we examine how different self-correction components interact to intervene the embedded morality within hidden states, therefore contributing to different performance. For the second question, we (i) evaluate the robustness of moral self-correction by introducing natural language interventions of weak evidence into prompts; (ii) propose a validation framework, self-distinguish, that requires effective self-correction to enable LLMs to distinguish between desirable and undesirable outputs. Our experimental results indicate that there is no universally optimal self-correction method for the tasks considered, although external feedback and CoT can contribute to additional performance gains. However, our mechanistic analysis reveals negative interactions among instructional prompts, CoT, and external feedback, suggesting a conflict between internal knowledge and external feedback. The self-distinguish experiments demonstrate that while LLMs can self-correct their responses, they are unable to reliably distinguish between desired and undesired outputs. With our empirical evidence, we can conclude that moral self-correction is not an innate capability of LLMs acquired during pretraining.
arxiv情報
著者 | Zimo Qi,Guangliang Liu,Kristen Marie Johnson,Lu Cheng |
発行日 | 2024-11-13 13:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google