SwitchCIT: Switching for Continual Instruction Tuning

要約

大規模言語モデル (LLM) とマルチモーダル モデル (MM) は、さまざまな領域、特に一般的な言語理解と視覚的推論において優れた機能を発揮してきました。
ただし、大量のデータに基づいてトレーニングされたこれらのモデルは、命令によってトリガーされる特定のタスクに対して細かく最適化されていない可能性があります。
継続的な命令チューニングは、大規模なモデルを進化するタスクやドメインに適応させ、幅広いアプリケーションにわたる有効性と関連性を確保するために重要です。
モデルが異なるタスクで順次トレーニングされる継続的な命令チューニングのコンテキストでは、壊滅的な忘却が発生し、以前に学習したタスクのパフォーマンスの低下につながる可能性があります。
この研究では、パラメータ効率の高い調整モデルに計算をルーティングするための切り替えメカニズムを通じて、継続的な命令学習における壊滅的な忘却に対処しています。
さまざまな自然言語生成タスクと視覚言語タスクの継続的な命令調整に関する実験を通じて、私たちの方法の有効性を実証します。
また、効率、スケーラビリティ、移植性、プライバシー保護の観点から、提案した方法の利点も紹介します。

要約(オリジナル)

Large language models (LLMs) and multimodal models (MMs) have exhibited impressive capabilities in various domains, particularly in general language understanding and visual reasoning. However, these models, trained on massive data, may not be finely optimized for specific tasks triggered by instructions. Continual instruction tuning is crucial to adapt a large model to evolving tasks and domains, ensuring their effectiveness and relevance across a wide range of applications. In the context of continual instruction tuning, where models are sequentially trained on different tasks, catastrophic forgetting can occur, leading to performance degradation on previously learned tasks. This work addresses the catastrophic forgetting in continual instruction learning through a switching mechanism for routing computations to parameter-efficient tuned models. We demonstrate the effectiveness of our method through experiments on continual instruction tuning of different natural language generation tasks and vision-language tasks. We also showcase the advantages of our proposed method in terms of efficiency, scalability, portability, and privacy preservation.

arxiv情報

著者 Xinbo Wu,Max Hartman,Vidhata Arjun Jayaraman,Lav R. Varshney
発行日 2024-12-18 18:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク