Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs

要約

大規模言語モデル (LLM) は、人間の指示に基づいてさまざまなタスクに取り組む際に顕著な効率性を示していますが、最近の研究では、これらのモデルが数学や物理学の質問など、推論を伴う質問では満足のいく結果を達成できないことが多いことが明らかになりました。
この現象は通常、これらのモデルがテキストに埋め込まれた知識を本当に理解できるのか、それとも内容を真に理解せずに単にトークンの分布を再現することを学習するだけなのかという不確実性に起因すると考えられます。
この論文では、この問題を詳しく掘り下げ、LLM の推論能力を強化することを目指します。
まず、注意と表現のレベルでテキスト生成プロセスを視覚化することで、モデルが真の推論能力を備えているかどうかを調査します。
次に、LLM の推論プロセスを因果関係のフレームワークに定式化し、視覚化で観察された問題の正式な説明を提供します。
最後に、この因果関係のフレームワークに基づいて、モデルが一般的な問題解決スキルを抽出し、それらを適用することを奨励することでモデルの推論能力を強化する新しいパラメーター効率の良い微調整 (PEFT) 手法である Deconffounded Causal Adaptation (DCA) を提案します。
さまざまな質問に対するスキル。
実験では、私たちの方法が複数のベンチマークにわたって一貫してベースラインを上回り、わずか 120 万の調整可能なパラメーターで、他の微調整方法と比較してより良い、または同等の結果が得られることが示されています。
これは、LLM の全体的な精度と信頼性の向上における私たちの方法の有効性と効率を示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable efficiency in tackling various tasks based on human instructions, but recent studies reveal that these models often fail to achieve satisfactory results on questions involving reasoning, such as mathematics or physics questions. This phenomenon is usually attributed to the uncertainty regarding whether these models could genuinely comprehend the knowledge embedded in the text or merely learn to replicate the token distribution without a true understanding of the content. In this paper, we delve into this problem and aim to enhance the reasoning capabilities of LLMs. First, we investigate if the model has genuine reasoning capabilities by visualizing the text generation process at the attention and representation level. Then, we formulate the reasoning process of LLMs into a causal framework, which provides a formal explanation of the problems we observe in the visualization. Finally, building upon this causal framework, we propose Deconfounded Causal Adaptation (DCA), a novel parameter-efficient fine-tuning (PEFT) method to enhance the model’s reasoning capabilities by encouraging the model to extract the general problem-solving skills and apply these skills to different questions. Experiments show that our method outperforms the baseline consistently across multiple benchmarks, and with only 1.2M tunable parameters, we achieve better or comparable results to other fine-tuning methods. This demonstrates the effectiveness and efficiency of our method in improving the overall accuracy and reliability of LLMs.

arxiv情報

著者 Ruoyu Wang,Xiaoxuan Li,Lina Yao
発行日 2024-09-04 13:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク