要約
命令チューニングは、教師付き命令データを使用して微調整することにより、大規模言語モデルの命令追従能力を強化します。
以前の研究では、特定の肯定的または否定的な例をプロンプトに組み込んでパフォーマンスを向上させる、コンテキスト内命令チューニング (ICIT) を提案しました。
この研究では、望ましい難易度という教育学的概念に触発された、シンプルで効果的なコンテキスト内での指導調整方法である PACIT を提案します。
PACIT メソッドは、モデルが単に読み取るのではなく、肯定的な例と否定的な例の違いを把握することを積極的に学習することを奨励することで、例の力を解き放ちます。
モデルは、最初にタスクの説明に従って提供された例の正しさを検証し、それがタスク インスタンスに対するより良い応答を生成するための条件として設定されることが期待されます。
私たちの広範な実験により、PACIT の有効性が証明され、ドメイン内タスクとドメイン外タスクの両方で、平均 ROUGE-L スコアがそれぞれ最大 9.16 および 3.14 まで ICIT ベースラインを上回りました。
さらに、PACIT は、すべての正の例と負の例が自己命令メソッドで生成された場合でも、命令チューニングのパフォーマンスを著しく向上させることができます。
要約(オリジナル)
Instruction tuning enhances the instruction following ability of large language models by finetuning with supervised instruction data. Previous work proposes in-context instruction tuning (ICIT) where specific positive or negative examples are incorporated into the prompt for better performance. In this work, we propose PACIT, a simple and effective in-context instruction tuning method, inspired by the pedagogical concept of desirable difficulty. The PACIT method unlocks the power of examples by encouraging the model to actively learn to grasp the distinctions between the positive and negative examples instead of merely reading. The model is expected to first verify the correctness of the provided example according to the task description, which is then set as the condition for generating a better response to the task instance. Our extensive experiments prove the effectiveness of PACIT, outperforming ICIT baseline on both in-domain and out-domain tasks up to 9.16 and 3.14 average ROUGE-L scores, respectively. Moreover, PACIT can notably enhance the performance of instruction tuning even when all positive and negative examples are generated with a self-instruct method.
arxiv情報
著者 | Tianci Xue,Ziqi Wang,Yixia Li,Yun Chen,Guanhua Chen |
発行日 | 2024-06-04 14:21:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google