Large Continual Instruction Assistant

要約

継続的な指導チューニング(CIT)は、データによる人間の意図データに従うように大規模なモデルに継続的に指示するために採用されています。
既存のグラデーションアップデートは、CITプロセス中に以前のデータセットのパフォーマンスを大幅に破壊することが観察されています。
代わりに、指数移動平均(EMA)は、以前のパラメーターを追跡する能力を所有しており、忘却の減少に役立ちます。
それにもかかわらず、その安定したバランスの重量は、絶えず変化するデータセットに対処できず、可塑性と安定性の間のバランスが崩れています。
この論文では、課題に対処するための一般的な継続的な指導チューニングフレームワークを提案します。
トレードオフの前提条件とEMAの更新から始めて、可塑性と安定性の理想的な状態を提案します。
損失関数のテイラーの拡張に基づいて、最適なバランス重量は勾配と学習パラメーターによって自動的に決定できることがわかります。
したがって、知識の混乱を避けるために、安定した可塑性バランス係数を提案します。
命令のセマンティックな類似性に基づいて、トレーニングパラメーターを再訓練または拡張するかどうかを判断し、テストインスタンスに最適なパラメーターを割り当てることができます。
複数の継続的な命令チューニングベンチマークにわたる広範な実験は、このアプローチが浸透防止能力を高めるだけでなく、全体的な継続的なチューニングパフォーマンスを大幅に改善することを示しています。
たとえば、LLAVA-7Bに基づいて、忘却は5.42から1.93に減少します。
私たちのコードはまもなく公開されます。

要約(オリジナル)

Continual Instruction Tuning (CIT) is adopted to continually instruct Large Models to follow human intent data by data. It is observed that existing gradient update would heavily destroy the performance on previous datasets during CIT process. Instead, Exponential Moving Average (EMA), owns the ability to trace previous parameters, which can aid in decreasing forgetting. Nonetheless, its stable balance weight fails to deal with the ever-changing datasets, leading to the out-of-balance between plasticity and stability. In this paper, we propose a general continual instruction tuning framework to address the challenge. Starting from the trade-off prerequisite and EMA update, we propose the plasticity and stability ideal condition. Based on Taylor expansion in the loss function, we find the optimal balance weight can be automatically determined by the gradients and learned parameters. Therefore, we propose a stable-plasticity balanced coefficient to avoid knowledge confusion. Based on the semantic similarity of the instructions, we can determine whether to retrain or expand the training parameters and allocate the most suitable parameters for the testing instances. Extensive experiments across multiple continual instruction tuning benchmarks demonstrate that our approach not only enhances anti-forgetting capabilities but also significantly improves overall continual tuning performance. For example, based on LLaVA-7B, the forgetting is reduced from 5.42 to 1.93. Our code will be made publicly available soon.

arxiv情報

著者 Jingyang Qiao,Zhizhong Zhang,Xin Tan,Yanyun Qu,Shouhong Ding,Yuan Xie
発行日 2025-02-11 17:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク