要約
マルチタスク学習($ MTL $)パラダイムは、タスクで共有される高レベルでより一般的な隠されたパターンをキャプチャする単一モデル内で複数のタスクを同時に学習することを目的としています。
深い学習では、バックプロパゲーショントレーニングプロセスの重要な課題は、勾配降下学習ルールの収束速度と安定性を改善するための高度なオプティマイザーの設計です。
特に、マルチタスクディープラーニング($ mtdl $)では、多数のタスクが潜在的に矛盾する勾配を生成する場合があり、それが多様な損失関数の同時収束を妨げる可能性があります。
この課題は、タスクの目的の勾配が異なる大きさまたは反対方向のいずれかを持っている場合に発生し、1つまたは少数が互いに支配または干渉し、したがってトレーニングプロセスを低下させます。
勾配手術方法は、全体的な勾配軌道を調整することにより、矛盾する勾配に明示的に対処する問題に対処します。
この研究では、新しい勾配手術法である類似性を覚める運動量勾配手術(SAM-GS)を紹介します。これは、最適化プロセスを導くための勾配の大きさの類似性測定に基づいた効果的でスケーラブルなアプローチを提供します。
SAM-GS手術は、勾配の均等化と1次勢いの変調を採用しています。
一連の実験テストにより、SAM-GSの合成問題と$ MTL $ベンチマークに対する有効性が示されています。
勾配の大きさの類似性は、学習プロセスの最適化のために$ MTDL $の勾配集約を正規化する上で重要な役割を果たします。
要約(オリジナル)
The multi-task learning ($MTL$) paradigm aims to simultaneously learn multiple tasks within a single model capturing higher-level, more general hidden patterns that are shared by the tasks. In deep learning, a significant challenge in the backpropagation training process is the design of advanced optimisers to improve the convergence speed and stability of the gradient descent learning rule. In particular, in multi-task deep learning ($MTDL$) the multitude of tasks may generate potentially conflicting gradients that would hinder the concurrent convergence of the diverse loss functions. This challenge arises when the gradients of the task objectives have either different magnitudes or opposite directions, causing one or a few to dominate or to interfere with each other, thus degrading the training process. Gradient surgery methods address the problem explicitly dealing with conflicting gradients by adjusting the overall gradient trajectory. This work introduces a novel gradient surgery method, the Similarity-Aware Momentum Gradient Surgery (SAM-GS), which provides an effective and scalable approach based on a gradient magnitude similarity measure to guide the optimisation process. The SAM-GS surgery adopts gradient equalisation and modulation of the first-order momentum. A series of experimental tests have shown the effectiveness of SAM-GS on synthetic problems and $MTL$ benchmarks. Gradient magnitude similarity plays a crucial role in regularising gradient aggregation in $MTDL$ for the optimisation of the learning process.
arxiv情報
著者 | Thomas Borsani,Andrea Rosani,Giuseppe Nicosia,Giuseppe Di Fatta |
発行日 | 2025-06-06 14:40:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google