Can Optimization Trajectories Explain Multi-Task Transfer?

要約

深い学習におけるマルチタスクトレーニングの広範な採用にもかかわらず、マルチタスク学習(MTL)が一般化にどのように影響するかについてはほとんど理解されていません。
以前の研究は、MTLの悪影響はトレーニング中に発生する最適化の課題によるものであり、マルチタスクのパフォーマンスを改善するために多くの最適化方法が提案されていると推測しています。
しかし、最近の研究では、これらの方法がマルチタスクの一般化を一貫して改善できないことが示されています。
この作業では、MTLがタスクの最適化にどのように影響するか、そしてこの影響が一般化に対するMTLの影響を説明できるかどうかを経験的に研究することにより、これらの障害の理解を改善しようとします。
MTLは、シングルタスクとマルチタスクの軌跡の間にトレーニングの早期に一般化ギャップ(同等のトレーニング損失での一般化のギャップ)をもたらすことを示します。
ただし、シングルタスク設定の一般化ギャップを説明するために以前に提案されていた最適化軌道の要因は、シングルタスクモデルとマルチタスクモデル間の一般化ギャップを説明できないことがわかります。
さらに、タスク間の勾配競合の量は、タスクの最適化に対するマイナスの影響と相関しているが、一般化を予測していないことを示します。
私たちの仕事は、MTLの障害の根本的な原因に光を当て、重要なことに、一般的な目的マルチタスク最適化アルゴリズムの役割について疑問を提起します。

要約(オリジナル)

Despite the widespread adoption of multi-task training in deep learning, little is understood about how multi-task learning (MTL) affects generalization. Prior work has conjectured that the negative effects of MTL are due to optimization challenges that arise during training, and many optimization methods have been proposed to improve multi-task performance. However, recent work has shown that these methods fail to consistently improve multi-task generalization. In this work, we seek to improve our understanding of these failures by empirically studying how MTL impacts the optimization of tasks, and whether this impact can explain the effects of MTL on generalization. We show that MTL results in a generalization gap (a gap in generalization at comparable training loss) between single-task and multi-task trajectories early into training. However, we find that factors of the optimization trajectory previously proposed to explain generalization gaps in single-task settings cannot explain the generalization gaps between single-task and multi-task models. Moreover, we show that the amount of gradient conflict between tasks is correlated with negative effects to task optimization, but is not predictive of generalization. Our work sheds light on the underlying causes for failures in MTL and, importantly, raises questions about the role of general purpose multi-task optimization algorithms.

arxiv情報

著者 David Mueller,Mark Dredze,Nicholas Andrews
発行日 2025-01-30 17:04:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク