TBGC: Task-level Backbone-Oriented Gradient Clip for Multi-Task Foundation Model Learning

要約

AllInOne トレーニング パラダイムは、マルチタスク学習方式で広範囲のタスクを統合モデルに絞り込みます。
ただし、さまざまなタスクからの勾配ノルムが大きく異なる可能性があり、バックボーンが 1 つの特定のタスクに過度に偏る可能性があるため、マルチタスク学習での最適化はシングルタスク学習よりも困難です。
この問題に対処するために、我々はタスクレベルのバックボーン指向の勾配クリップパラダイムを提案します。バニラ勾配クリップ方法と比較して、これには2つの重点があります:1) 勾配クリップはタスクごとに独立して実行されます。
2) 各タスクから生成されたバックボーン勾配は、同じ標準スケールに再スケールされます。
実験結果に基づいて、タスクレベルのバックボーン指向の勾配クリップパラダイムは勾配バイアスの問題をある程度軽減できると主張します。
また、競合拡張が異なるブランチに配置される、新しいマルチブランチ データ拡張戦略も提案します。
私たちのアプローチは効果的であることが証明され、最終的に CVPR2023 Foundation Model Challenge のリーダーボード A で 1 位、リーダーボード B で 2 位を獲得しました。
リーダーボード A で 3 つのタスク (検出、セグメンテーション、および詳細な分類) をすべて評価するのではなく、リーダーボード B ではセグメンテーション タスクが評価されないことは注目に値します。リーダーボード B では、私たちのチームが大きな利点を持っています。

要約(オリジナル)

The AllInOne training paradigm squeezes a wide range of tasks into a unified model in a multi-task learning manner. However, optimization in multi-task learning is more challenge than single-task learning, as the gradient norm from different tasks may vary greatly, making the backbone overly biased towards one specific task. To address this issue, we propose the task-level backbone-oriented gradient clip paradigm, compared with the vanilla gradient clip method, it has two points of emphasis:1) gradient clip is performed independently for each task. 2) backbone gradients generated from each task are rescaled to the same norm scale. Based on the experimental results, we argue that the task-level backbone-oriented gradient clip paradigm can relieve the gradient bias problem to some extent. We also propose a novel multi-branch data augmentation strategy where conflict augmentations are placed in different branches. Our approach has been shown to be effective and finally achieve 1st place in the Leaderboard A and 2nd place in the Leaderboard B of the CVPR2023 Foundation Model Challenge. It’s worth noting that instead of evaluating all three tasks(detection, segmentation and fine-grained classification) in Leaderboard A, the segmentation task is not evaluated in Leaderboard B, in which our team has a huge advantage.

arxiv情報

著者 Zelun Zhang,Xue Pan
発行日 2023-07-07 08:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク