要約
ジェネラリスト エージェントへの進化には、統合モデルを使用した複数のタスクの同時処理が必要となり、そのため、複数の下流タスクでの同時モデル トレーニングの重要性が高まっていることが強調されます。
マルチタスク学習における一般的な問題は、勾配競合の発生であり、これにより、共同トレーニング中に異なるタスク間で競合が発生する可能性があります。
この競争により、多くの場合、あるタスクが改善され、別のタスクが低下します。
タスクのバランスを改善するためにタスクの勾配を操作することでこの問題に対処するいくつかの最適化方法が開発されていますが、勾配の競合の発生率を減らすことはできません。
この論文では、さまざまな手法にわたる勾配競合の発生を体系的に調査し、スパース トレーニング (ST) を通じてそのような競合を軽減する戦略を提案します。この戦略では、トレーニング中にモデルのパラメーターの一部のみが更新され、残りは変更されません。
私たちの広範な実験により、ST が矛盾する勾配を効果的に緩和し、優れたパフォーマンスにつながることが実証されています。
さらに、ST は勾配操作技術と簡単に統合できるため、その有効性が向上します。
要約(オリジナル)
Advancing towards generalist agents necessitates the concurrent processing of multiple tasks using a unified model, thereby underscoring the growing significance of simultaneous model training on multiple downstream tasks. A common issue in multi-task learning is the occurrence of gradient conflict, which leads to potential competition among different tasks during joint training. This competition often results in improvements in one task at the expense of deterioration in another. Although several optimization methods have been developed to address this issue by manipulating task gradients for better task balancing, they cannot decrease the incidence of gradient conflict. In this paper, we systematically investigate the occurrence of gradient conflict across different methods and propose a strategy to reduce such conflicts through sparse training (ST), wherein only a portion of the model’s parameters are updated during training while keeping the rest unchanged. Our extensive experiments demonstrate that ST effectively mitigates conflicting gradients and leads to superior performance. Furthermore, ST can be easily integrated with gradient manipulation techniques, thus enhancing their effectiveness.
arxiv情報
著者 | Zhi Zhang,Jiayi Shen,Congfeng Cao,Gaole Dai,Shiji Zhou,Qizhe Zhang,Shanghang Zhang,Ekaterina Shutova |
発行日 | 2024-11-27 18:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google