SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models

要約

大規模言語モデル (LLM) は、さまざまな領域、特に一般的な言語理解において優れた機能を発揮してきました。
ただし、大量のテキスト データでトレーニングされたこれらのモデルは、指示によってトリガーされる特定のタスクに対して細かく最適化されていない可能性があります。
LLM を進化するタスクやドメインに適応させ、幅広いアプリケーションにわたって LLM の有効性と関連性を確保するには、継続的な命令チューニングが不可欠です。
モデルが異なるタスクで順次トレーニングされる継続的な命令チューニングのコンテキストでは、壊滅的な忘却が発生し、以前に学習したタスクのパフォーマンスの低下につながる可能性があります。
この研究では、パラメータ効率の高い調整モデルに計算をルーティングするための切り替えメカニズムを通じて、LLM の継続的な命令学習における致命的な忘却に対処します。
さまざまな自然言語生成タスクの継続的な命令調整に関する実験を通じて、私たちの方法の有効性を実証します。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive capabilities in various domains, particularly in general language understanding. However these models, trained on massive text data, may not be finely optimized for specific tasks triggered by instructions. Continual instruction tuning is crucial to adapt LLMs to evolving tasks and domains, ensuring their effectiveness and relevance across a wide range of applications. In the context of continual instruction tuning, where models are sequentially trained on different tasks, catastrophic forgetting can occur, leading to performance degradation on previously learned tasks. This work addresses the catastrophic forgetting in continual instruction learning for LLMs through a switching mechanism for routing computations to parameter-efficient tuned models. We demonstrate the effectiveness of our method through experiments on continual instruction tuning of different natural language generation tasks.

arxiv情報

著者 Xinbo Wu,Max Hartman,Vidhata Arjun Jayaraman,Lav R. Varshney
発行日 2024-07-16 14:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク