要約
大規模言語モデル (LLM) は、誠実な応答を提供することよりもユーザーのプロンプトに従うことを優先する傾向があり、お調子者問題が発生します。
ユーザーから異議を申し立てられると、LLM は最初は正しい答えを提供したとしても間違いを認め、不正確な応答を返す傾向があります。
最近の研究では、お調子者問題を軽減するために教師あり微調整 (SFT) を採用することが提案されていますが、これは通常、LLM の一般的な機能の低下につながります。
この課題に対処するために、我々は、関心領域モジュールが特定の目的に合わせて調整される、新しい教師ありピンポイント調整 (SPT) を提案します。
具体的には、SPT はまず、LLM の特定の動作に大きな影響を与える基本モジュールのごく一部 (<5%) を明らかにして検証します。
つまりお調子者。
その後、SPT はこれらの特定されたモジュールを微調整するだけで、残りのモジュールは凍結されます。
提案された SPT の有効性を検証するために、包括的な実験を実施し、SPT が LLM のおべっかの問題を大幅に軽減する (SFT よりも優れている) ことを実証しました。
さらに、SPT は、LLM の一般的な機能に限定的な副作用をもたらすか、まったく副作用をもたらしません。
私たちの結果は、LLM の目標とする能力を正確、効果的、効率的に説明し、向上させる方法を明らかにします。
要約(オリジナル)
Large Language Models (LLMs) tend to prioritize adherence to user prompts over providing veracious responses, leading to the sycophancy issue. When challenged by users, LLMs tend to admit mistakes and provide inaccurate responses even if they initially provided the correct answer. Recent works propose to employ supervised fine-tuning (SFT) to mitigate the sycophancy issue, while it typically leads to the degeneration of LLMs’ general capability. To address the challenge, we propose a novel supervised pinpoint tuning (SPT), where the region-of-interest modules are tuned for a given objective. Specifically, SPT first reveals and verifies a small percentage (<5%) of the basic modules, which significantly affect a particular behavior of LLMs. i.e., sycophancy. Subsequently, SPT merely fine-tunes these identified modules while freezing the rest. To verify the effectiveness of the proposed SPT, we conduct comprehensive experiments, demonstrating that SPT significantly mitigates the sycophancy issue of LLMs (even better than SFT). Moreover, SPT introduces limited or even no side effects on the general capability of LLMs. Our results shed light on how to precisely, effectively, and efficiently explain and improve the targeted ability of LLMs.
arxiv情報
著者 | Wei Chen,Zhen Huang,Liang Xie,Binbin Lin,Houqiang Li,Le Lu,Xinmei Tian,Deng Cai,Yonggang Zhang,Wenxiao Wang,Xu Shen,Jieping Ye |
発行日 | 2024-11-27 10:35:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google