要約
マルチタスク学習 (MTL) は近年大きな注目を集めていますが、その基礎となるメカニズムはまだ十分に理解されていません。
最近の手法では、シングル タスク学習 (STL) のベースラインと比較して一貫したパフォーマンスの向上が得られず、MTL に特有の課題についてより深い洞察を得ることが重要であることが浮き彫りになりました。
私たちの研究では、STL のコンテキストで MTL のパラダイムを調査します。まず、オプティマイザーの選択の影響は、MTL ではあまり調査されていません。
私たちは、MTL における Adam オプティマイザーなどの一般的な STL ツールの重要な役割を、さまざまな実験で実証的に示します。
アダムの有効性をさらに調査するために、穏やかな仮定の下で部分的な損失スケールの不変性を理論的に導き出します。
第 2 に、勾配の競合の概念は、MTL 特有の問題としてよく言われます。
MTL における勾配競合の役割を詳しく調べ、STL と比較します。
角度勾配のアライメントについては、これが MTL 特有の問題であるという証拠は見つかりません。
私たちは、主な識別要素として勾配の大きさの違いを強調します。
全体として、STL と MTL の間には驚くべき類似点があり、両方の分野の手法をより広い文脈で検討することが示唆されています。
要約(オリジナル)
While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we investigate paradigms in MTL in the context of STL: First, the impact of the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL empirically in various experiments. To further investigate Adam’s effectiveness, we theoretical derive a partial loss-scale invariance under mild assumptions. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context.
arxiv情報
著者 | Cathrin Elich,Lukas Kirchdorfer,Jan M. Köhler,Lukas Schott |
発行日 | 2024-08-15 15:19:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google