要約
大規模言語モデル (LLM) は、指示されたときに応答を改善できます。これは自己修正として知られる機能です。
これらの指示に応答の問題に関する具体的な詳細が含まれていない場合、これは本質的な自己修正機能の活用と呼ばれます。
自己修正の経験的な成功は、テキストの無毒化や社会的偏見の緩和など、さまざまな応用例で見られます。
ただし、この自己修正機能の活用は、最初は正しい応答が間違った応答に修正される可能性があるため、常に効果的であるとは限りません。
このホワイトペーパーでは、自己修正機能の活用がどのように、そしてなぜ効果的であるかを理解するよう努めます。
適切な命令によって LLM を収束状態に導くことができるが、自己修正ステップを追加してもさらなるパフォーマンスの向上は得られないことがわかりました。
我々は、モデルの不確実性と活性化された潜在概念が共同して自己修正の有効性を特徴付けることを経験的に証明します。
さらに、活性化された潜在概念がモデルの不確実性と自己修正パフォーマンスの収束を促進することを示す数学的定式化を提供します。
私たちの分析は、視覚言語モデル (VLM) で観察される自己修正行動にも一般化できます。
さらに、タスクに依存しないバイアス除去は、効果的な微調整サンプルの選択という点で私たちの原理から恩恵を受けることができることを強調します。
このような初期の成功は、より優れた命令のチューニングと安全性の調整のための潜在的な拡張性を示しています。
要約(オリジナル)
Large Language Models (LLMs) can improve their responses when instructed to do so, a capability known as self-correction. When these instructions lack specific details about the issues in the response, this is referred to as leveraging the intrinsic self-correction capability. The empirical success of self-correction can be found in various applications, e.g., text detoxification and social bias mitigation. However, leveraging this self-correction capability may not always be effective, as it has the potential to revise an initially correct response into an incorrect one. In this paper, we endeavor to understand how and why leveraging the self-correction capability is effective. We identify that appropriate instructions can guide LLMs to a convergence state, wherein additional self-correction steps do not yield further performance improvements. We empirically demonstrate that model uncertainty and activated latent concepts jointly characterize the effectiveness of self-correction. Furthermore, we provide a mathematical formulation indicating that the activated latent concept drives the convergence of the model uncertainty and self-correction performance. Our analysis can also be generalized to the self-correction behaviors observed in Vision-Language Models (VLMs). Moreover, we highlight that task-agnostic debiasing can benefit from our principle in terms of selecting effective fine-tuning samples. Such initial success demonstrates the potential extensibility for better instruction tuning and safety alignment.
arxiv情報
著者 | Guangliang Liu,Haitao Mao,Bochuan Cao,Zhiyu Xue,Kristen Johnson,Jiliang Tang,Rongrong Wang |
発行日 | 2024-06-04 14:55:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google