要約
命令チューニングにより、ダウンストリーム タスクの大規模言語モデル (LLM) が効果的に最適化されます。
実際のアプリケーションでは環境が変化するため、LLM は壊滅的な忘れをすることなく、タスク固有の適応を継続的に行う必要があります。
膨大な計算コストを考慮すると、リプレイベースの継続学習 (CL) 手法が最も単純で、忘却の問題に対処する LLM に最も広く使用されています。
ただし、従来のリプレイベースの方法では、リプレイ戦略をカスタマイズするための命令が完全に活用されていません。
この研究では、命令ベースの継続学習 (InsCL) と呼ばれる新しいパラダイムを提案します。
InsCL は、命令を使用して Wasserstein Distance によって計算されたタスクの類似性に基づいて、以前のデータを動的に再生します。
さらに、命令の複雑さと多様性を定量化するために、命令情報メトリック (InsInfo) をさらに導入します。
InsInfo によると、InsCL は再生プロセスをより高品質なデータに向けて誘導します。
私たちは、さまざまなトレーニング順序で 16 のタスクにわたって広範な実験を実施し、InsCL の一貫したパフォーマンスの向上を観察しました。
すべてのタスクがトレーニングされると、InsCL はランダム リプレイと比較して 3.0 相対ゲイン、リプレイなしと比較して 27.96 相対ゲインのパフォーマンス向上を達成します。
要約(オリジナル)
Instruction tuning effectively optimizes Large Language Models (LLMs) for downstream tasks. Due to the changing environment in real-life applications, LLMs necessitate continual task-specific adaptation without catastrophic forgetting. Considering the heavy computational cost, replay-based Continual Learning (CL) methods are the simplest and most widely used for LLMs to address the forgetting issue. However, traditional replay-based methods do not fully utilize instructions to customize the replay strategy. In this work, we propose a novel paradigm called Instruction-based Continual Learning (InsCL). InsCL dynamically replays previous data based on task similarity, calculated by Wasserstein Distance with instructions. Moreover, we further introduce an Instruction Information Metric (InsInfo) to quantify the complexity and diversity of instructions. According to InsInfo, InsCL guides the replay process more inclined to high-quality data. We conduct extensive experiments over 16 tasks with different training orders, observing consistent performance improvements of InsCL. When all tasks have been trained, InsCL achieves performance gains of 3.0 Relative Gain compared with Random Replay, and 27.96 Relative Gain compared with No Replay.
arxiv情報
著者 | Yifan Wang,Yafei Liu,Chufan Shi,Haoling Li,Chen Chen,Haonan Lu,Yujiu Yang |
発行日 | 2024-03-18 03:10:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google