要約
大規模な言語モデル(LLMS)のプロンプトチューニング(PT)は、トレーニング可能なパラメーターが大幅に少ないさまざまな従来のNLPタスクのパフォーマンスを促進できます。
しかし、我々の調査により、PTは限られた改善を提供し、複雑な推論タスクでLLMの原始的なパフォーマンスを低下させる可能性さえあることが明らかになりました。
このような現象は、ソフトプロンプトが特定のインスタンスにプラスの影響を与えると同時に、特に推論の後期段階で他のインスタンスに悪影響を与える可能性があることを示唆しています。
これらの課題に対処するために、最初にソフトプロンプト内の情報蓄積を特定します。
詳細な分析を通じて、この現象にはしばしばモデルのより深い層に誤った情報フローパターンが伴い、最終的に誤った推論結果につながることを実証します。
\ textbf {d} ynamic \ textbf {p} rompt \ textbf {c} orutdion(dpc)という新しい方法を提案します。
具体的には、DPCは、動的トリガーと動的腐敗の2つの段階で構成されています。
第一に、動的トリガーはソフトプロンプトの影響を測定し、有益か有害かを特定します。
次に、動的な腐敗は、推論プロセスを妨げるキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の影響を軽減します。
GSM8K、Math、Aquaなど、さまざまなLLMSおよび推論タスクに関する広範な実験を通じて提案されたアプローチを検証します。
実験結果は、DPCがPTのパフォーマンスを一貫して向上させ、バニラプロンプトチューニングと比較して4 \%-8 \%の精度の向上を達成できることを示しており、アプローチの有効性とLLMSの複雑な推論を強化する可能性を強調しています。
要約(オリジナル)
Prompt-tuning (PT) for large language models (LLMs) can facilitate the performance on various conventional NLP tasks with significantly fewer trainable parameters. However, our investigation reveals that PT provides limited improvement and may even degrade the primitive performance of LLMs on complex reasoning tasks. Such a phenomenon suggests that soft prompts can positively impact certain instances while negatively affecting others, particularly during the later phases of reasoning. To address these challenges, We first identify an information accumulation within the soft prompts. Through detailed analysis, we demonstrate that this phenomenon is often accompanied by erroneous information flow patterns in the deeper layers of the model, which ultimately lead to incorrect reasoning outcomes. we propose a novel method called \textbf{D}ynamic \textbf{P}rompt \textbf{C}orruption (DPC) to take better advantage of soft prompts in complex reasoning tasks, which dynamically adjusts the influence of soft prompts based on their impact on the reasoning process. Specifically, DPC consists of two stages: Dynamic Trigger and Dynamic Corruption. First, Dynamic Trigger measures the impact of soft prompts, identifying whether beneficial or detrimental. Then, Dynamic Corruption mitigates the negative effects of soft prompts by selectively masking key tokens that interfere with the reasoning process. We validate the proposed approach through extensive experiments on various LLMs and reasoning tasks, including GSM8K, MATH, and AQuA. Experimental results demonstrate that DPC can consistently enhance the performance of PT, achieving 4\%-8\% accuracy gains compared to vanilla prompt tuning, highlighting the effectiveness of our approach and its potential to enhance complex reasoning in LLMs.
arxiv情報
著者 | Sinan Fan,Liang Xie,Chen Shen,Ge Teng,Xiaosong Yuan,Xiaofeng Zhang,Chenxi Huang,Wenxiao Wang,Xiaofei He,Jieping Ye |
発行日 | 2025-03-17 14:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google