Recon: Reducing Conflicting Gradients from the Root for Multi-Task Learning

要約

マルチタスク学習の根本的な課題は、さまざまなタスクを組み合わせて解決したときに競合する可能性があることです。この現象の原因は、最適化中の勾配の競合です。
最近の研究では、いくつかの基準に基づいて勾配を直接変更することにより、競合する勾配の影響を軽減しようとしています。
しかし、私たちの経験的研究は、「勾配手術」が相反する勾配の発生を効果的に減らすことができないことを示しています。
この論文では、ルートから競合する勾配を減らすために別のアプローチを取ります。
本質的に、タスク勾配 w.r.t を調査します。
共有ネットワーク層ごとに、競合スコアの高い層を選択し、それらをタスク固有の層に変えます。
私たちの実験では、このような単純なアプローチにより、残りの共有レイヤーで競合する勾配の発生が大幅に減少し、多くの場合、モデル パラメーターがわずかに増加するだけで、パフォーマンスが向上することが示されています。
私たちのアプローチは、勾配操作法や分岐アーキテクチャ検索法など、さまざまな最先端の方法を改善するために簡単に適用できます。
与えられたネットワーク アーキテクチャ (ResNet18 など) では、競合レイヤーを 1 回検索するだけでよく、ネットワークを変更して、同じデータセットまたは異なるデータセットで異なる方法を使用してパフォーマンスを向上させることができます。
ソースコードは https://github.com/moukamisama/Recon で入手できます。

要約(オリジナル)

A fundamental challenge for multi-task learning is that different tasks may conflict with each other when they are solved jointly, and a cause of this phenomenon is conflicting gradients during optimization. Recent works attempt to mitigate the influence of conflicting gradients by directly altering the gradients based on some criteria. However, our empirical study shows that “gradient surgery” cannot effectively reduce the occurrence of conflicting gradients. In this paper, we take a different approach to reduce conflicting gradients from the root. In essence, we investigate the task gradients w.r.t. each shared network layer, select the layers with high conflict scores, and turn them to task-specific layers. Our experiments show that such a simple approach can greatly reduce the occurrence of conflicting gradients in the remaining shared layers and achieve better performance, with only a slight increase in model parameters in many cases. Our approach can be easily applied to improve various state-of-the-art methods including gradient manipulation methods and branched architecture search methods. Given a network architecture (e.g., ResNet18), it only needs to search for the conflict layers once, and the network can be modified to be used with different methods on the same or even different datasets to gain performance improvement. The source code is available at https://github.com/moukamisama/Recon.

arxiv情報

著者 Guangyuan Shi,Qimai Li,Wenlong Zhang,Jiaxin Chen,Xiao-Ming Wu
発行日 2023-02-22 11:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク