Improving Multi-task Learning via Seeking Task-based Flat Regions

要約

マルチタスク学習 (MTL) は、ディープ ニューラル ネットワークをトレーニングするために広く使用されている強力な学習パラダイムであり、単一のバックボーンで複数の目標を学習できます。
タスクを個別にトレーニングする場合と比較して、MTL は計算コストを大幅に削減し、データ効率を向上させ、タスク全体の知識を活用することでモデルのパフォーマンスを向上させる可能性があります。
そのため、コンピュータビジョンから自然言語処理や音声認識に至るまで、さまざまなアプリケーションに採用されています。
その中には、タスクの勾配を操作して、すべてのタスクに利益をもたらす最終的な勾配降下方向を導き出すことに焦点を当てた、MTL の新しい一連の作業があります。
多くのベンチマークで優れた結果が得られているにもかかわらず、適切な正則化手法を使用せずにこれらのアプローチを直接適用すると、現実の問題に対して次善の解決策が得られる可能性があります。
特に、トレーニング データの経験的損失を最小限に抑える標準的なトレーニングは、低リソースのタスクへの過剰適合に悩まされたり、ノイズの多いタスクによって台無しになったりする可能性があり、タスク間で負の伝達が発生し、全体的なパフォーマンスが低下する可能性があります。
このような問題を軽減するために、最近導入された、シングルタスク学習におけるモデルの汎化能力を強化できる、Sharpness-aware Minimization と呼ばれるトレーニング方法を活用することを提案します。
したがって、我々は、すべてのタスクに対する一般化能力を首尾一貫して向上させるために、モデルがタスクベースのフラット最小値を見つけることを奨励する、新しい MTL トレーニング方法論を提案します。
最後に、私たちが開発した理論によって示唆されているように、既存の勾配ベースの MTL 法に対する私たちが提案するアプローチの利点を実証するために、さまざまなアプリケーションに関する包括的な実験を実施します。

要約(オリジナル)

Multi-Task Learning (MTL) is a widely-used and powerful learning paradigm for training deep neural networks that allows learning more than one objective by a single backbone. Compared to training tasks separately, MTL significantly reduces computational costs, improves data efficiency, and potentially enhances model performance by leveraging knowledge across tasks. Hence, it has been adopted in a variety of applications, ranging from computer vision to natural language processing and speech recognition. Among them, there is an emerging line of work in MTL that focuses on manipulating the task gradient to derive an ultimate gradient descent direction to benefit all tasks. Despite achieving impressive results on many benchmarks, directly applying these approaches without using appropriate regularization techniques might lead to suboptimal solutions on real-world problems. In particular, standard training that minimizes the empirical loss on the training data can easily suffer from overfitting to low-resource tasks or be spoiled by noisy-labeled ones, which can cause negative transfer between tasks and overall performance drop. To alleviate such problems, we propose to leverage a recently introduced training method, named Sharpness-aware Minimization, which can enhance model generalization ability on single-task learning. Accordingly, we present a novel MTL training methodology, encouraging the model to find task-based flat minima for coherently improving its generalization capability on all tasks. Finally, we conduct comprehensive experiments on a variety of applications to demonstrate the merit of our proposed approach to existing gradient-based MTL methods, as suggested by our developed theory.

arxiv情報

著者 Hoang Phan,Lam Tran,Quyen Tran,Ngoc N. Tran,Tuan Truong,Nhat Ho,Dinh Phung,Trung Le
発行日 2024-11-19 16:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク