要約
大規模言語モデル (LLM) は自己生成された応答を修正できますが、自己修正後の精度の低下も観察されます。
自己修正をより深く理解するために、私たちは LLM の自己修正行動を分解、評価、分析するよう努めています。
自己修正前後の正解率を列挙して分析することで、自己修正能力を自信(正解する自信)能力と批判(誤答を正解にする)能力に分解し、確率論的な観点から測定する2つの指標を提案します。
これら 2 つの機能と、全体的な自己修正機能を評価するための別の指標を組み合わせます。
分解と評価のメトリクスに基づいて、広範な実験を実施し、いくつかの経験的な結論を導き出します。
たとえば、さまざまなモデルが異なる動作を示す可能性があることがわかりました。自信を持っているモデルもあれば、より批判的なモデルもあります。
また、プロンプトやコンテキスト内学習によってモデルの自己修正動作を操作する場合、2 つの機能間のトレードオフ (つまり、一方を向上させるともう一方の機能が低下する可能性がある) もわかります。
さらに、Supervision Fine-Tuning (SFT) データ形式を変換することで自己修正機能を向上させる、シンプルかつ効率的な戦略を発見しました。この戦略は、両方の機能で通常の SFT を上回り、自己修正後にはるかに高い精度を達成しました。
私たちのコードは GitHub で公開される予定です。
要約(オリジナル)
Large Language Models (LLMs) can correct their self-generated responses, but a decline in accuracy after self-correction is also witnessed. To have a deeper understanding of self-correction, we endeavor to decompose, evaluate, and analyze the self-correction behaviors of LLMs. By enumerating and analyzing answer correctness before and after self-correction, we decompose the self-correction capability into confidence (being confident to correct answers) and critique (turning wrong answers to correct) capabilities, and propose two metrics from a probabilistic perspective to measure these 2 capabilities, along with another metric for overall self-correction capability evaluation. Based on our decomposition and evaluation metrics, we conduct extensive experiments and draw some empirical conclusions. For example, we find different models can exhibit distinct behaviors: some models are confident while others are more critical. We also find the trade-off between the two capabilities (i.e. improving one can lead to a decline in the other) when manipulating model self-correction behavior by prompts or in-context learning. Further, we find a simple yet efficient strategy to improve self-correction capability by transforming Supervision Fine-Tuning (SFT) data format, and our strategy outperforms vanilla SFT in both capabilities and achieves much higher accuracy after self-correction. Our code will be publicly available on GitHub.
arxiv情報
著者 | Zhe Yang,Yichang Zhang,Yudong Wang,Ziyao Xu,Junyang Lin,Zhifang Sui |
発行日 | 2024-12-27 08:09:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google