How stable are Transferability Metrics evaluations?

要約

転送可能性メトリックは、関心が高まっている成熟分野であり、すべてを微調整することなく、特定のターゲット データセットに転送するのに最適なソース モデルを選択するためのヒューリスティックを提供することを目的としています。
ただし、既存の研究は、論文ごとに異なるカスタムの実験設定に依存しているため、どの転送可能性指標が最適かについて一貫性のない結論につながります。
この論文では、幅広い715kの実験セットアップのバリエーションを体系的に構築することにより、大規模な研究を実施しています。
実験設定のわずかな変化でさえ、伝達可能性メトリックの優位性について異なる結論につながることがわかりました。
その後、多くの実験を集計してより良い評価を提案し、より安定した結論に到達できるようにします。
その結果、セマンティック セグメンテーション シナリオで転送元の適切なソース データセットを選択する際の LogME の優位性、画像分類シナリオで適切なソース アーキテクチャを選択する際の NLEEP、および特定のソース モデルからどのターゲット タスクが最も恩恵を受けるかを決定する GBC の優位性が明らかになりました。
.
しかし、すべてのシナリオで最適に機能する単一の転送可能性指標はありません。

要約(オリジナル)

Transferability metrics is a maturing field with increasing interest, which aims at providing heuristics for selecting the most suitable source models to transfer to a given target dataset, without fine-tuning them all. However, existing works rely on custom experimental setups which differ across papers, leading to inconsistent conclusions about which transferability metrics work best. In this paper we conduct a large-scale study by systematically constructing a broad range of 715k experimental setup variations. We discover that even small variations to an experimental setup lead to different conclusions about the superiority of a transferability metric over another. Then we propose better evaluations by aggregating across many experiments, enabling to reach more stable conclusions. As a result, we reveal the superiority of LogME at selecting good source datasets to transfer from in a semantic segmentation scenario, NLEEP at selecting good source architectures in an image classification scenario, and GBC at determining which target task benefits most from a given source model. Yet, no single transferability metric works best in all scenarios.

arxiv情報

著者 Andrea Agostinelli,Michal Pándy,Jasper Uijlings,Thomas Mensink,Vittorio Ferrari
発行日 2022-10-20 15:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク