Transferability Estimation Based On Principal Gradient Expectation

要約

深層転移学習は、近年、知識の伝達に広く使用されています。
事前トレーニングとその後の微調整、または線形プロービングの標準的なアプローチは、多くのダウンストリーム タスクで効果的であることが示されています。
したがって、やりがいのある進行中の質問が発生します: 自己一貫性を維持しながら、転送された結果と互換性のあるクロスタスク転送可能性を定量化する方法は?
既存の転送可能性指標は、ソース タスクとターゲット タスクを対話することにより、特定のモデルで推定されます。
新しい未知のターゲット タスクが発生するたびに、既存のすべてのソース タスクを使用してそれらを再計算する必要がありますが、これは計算コストが非常に高くなります。
この作業では、どのプロパティを満たす必要があるかを強調し、これらの特性に照らして既存のメトリックを評価します。
これに基づいて、タスク間の転送可能性を評価するためのシンプルで効果的な方法である主勾配期待値 (PGE) を提案します。
具体的には、再起動スキームを使用して、各重み単位ですべてのバッチ勾配を複数回計算し、すべての勾配の平均をとって期待値を取得します。
したがって、ソース タスクとターゲット タスク間の転送可能性は、正規化された主勾配の距離を計算することによって推定されます。
広範な実験により、提案された転送可能性メトリックは、SOTA メソッドよりも安定しており、信頼性が高く、効率的であることが示されています。

要約(オリジナル)

Deep transfer learning has been widely used for knowledge transmission in recent years. The standard approach of pre-training and subsequently fine-tuning, or linear probing, has shown itself to be effective in many down-stream tasks. Therefore, a challenging and ongoing question arises: how to quantify cross-task transferability that is compatible with transferred results while keeping self-consistency? Existing transferability metrics are estimated on the particular model by conversing source and target tasks. They must be recalculated with all existing source tasks whenever a novel unknown target task is encountered, which is extremely computationally expensive. In this work, we highlight what properties should be satisfied and evaluate existing metrics in light of these characteristics. Building upon this, we propose Principal Gradient Expectation (PGE), a simple yet effective method for assessing transferability across tasks. Specifically, we use a restart scheme to calculate every batch gradient over each weight unit more than once, and then we take the average of all the gradients to get the expectation. Thus, the transferability between the source and target task is estimated by computing the distance of normalized principal gradients. Extensive experiments show that the proposed transferability metric is more stable, reliable and efficient than SOTA methods.

arxiv情報

著者 Huiyan Qi,Lechao Cheng,Jingjing Chen,Yue Yu,Zunlei Feng,Yu-Gang Jiang
発行日 2022-11-29 15:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク