要約
ソースモデル(タスク)がターゲットタスクの学習にどれだけ役立つかを評価し、より転送可能な表現を学習するために、2つの新しい転送可能性メトリックF-OTCE(高速最適トランスポートベースの条件付きエントロピー)とJC-OTCE(ジョイント対応OTCE)を提案します。
クロスドメインクロスタスク転移学習用。
補助タスクの経験的転送可能性を評価する必要がある既存のメトリックとは異なり、メトリックは補助がないため、はるかに効率的に計算できます。
具体的には、F-OTCEは、最初にソースとターゲットの分布間の最適なトランスポート(OT)問題を解決し、次に最適な結合を使用してソースとターゲットのラベル間の負の条件付きエントロピーを計算することにより、転送可能性を推定します。
また、ターゲットタスクを微調整する前に、ソースモデルの転送可能性を最大化するための損失関数としても機能します。
一方、JC-OTCEは、OT問題にラベル距離を含めることにより、F-OTCEの転送可能性の堅牢性を向上させますが、追加の計算コストが発生する可能性があります。
広範な実験により、F-OTCEとJC-OTCEは、グラウンドトゥルース伝達精度との相関係数において、最先端の補助なしのメトリックをそれぞれ18.85%と28.88%上回っています。
補助タスクのトレーニングコストを排除することにより、2つのメトリックは、前の方法の合計計算時間を、タスクのペアでそれぞれ43分から9.32秒と10.78秒に短縮します。
F-OTCEを損失関数として使用すると、数ショットの分類実験でソースモデルの転送精度が一貫して向上し、最大4.41%の精度が向上します。
要約(オリジナル)
We propose two novel transferability metrics F-OTCE (Fast Optimal Transport based Conditional Entropy) and JC-OTCE (Joint Correspondence OTCE) to evaluate how much the source model (task) can benefit the learning of the target task and to learn more transferable representations for cross-domain cross-task transfer learning. Unlike the existing metric that requires evaluating the empirical transferability on auxiliary tasks, our metrics are auxiliary-free such that they can be computed much more efficiently. Specifically, F-OTCE estimates transferability by first solving an Optimal Transport (OT) problem between source and target distributions, and then uses the optimal coupling to compute the Negative Conditional Entropy between source and target labels. It can also serve as a loss function to maximize the transferability of the source model before finetuning on the target task. Meanwhile, JC-OTCE improves the transferability robustness of F-OTCE by including label distances in the OT problem, though it may incur additional computation cost. Extensive experiments demonstrate that F-OTCE and JC-OTCE outperform state-of-the-art auxiliary-free metrics by 18.85% and 28.88%, respectively in correlation coefficient with the ground-truth transfer accuracy. By eliminating the training cost of auxiliary tasks, the two metrics reduces the total computation time of the previous method from 43 minutes to 9.32s and 10.78s, respectively, for a pair of tasks. When used as a loss function, F-OTCE shows consistent improvements on the transfer accuracy of the source model in few-shot classification experiments, with up to 4.41% accuracy gain.
arxiv情報
著者 | Yang Tan,Yang Li,Shao-Lun Huang,Xiao-Ping Zhang |
発行日 | 2022-07-12 13:06:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google