要約
公開されている事前学習済みモデルのターゲット タスクへの移行可能性を推定することは、近年の転移学習タスクにとって重要な位置を占めています。
既存の取り組みでは、ユーザーが各モデルを個別に微調整してモデルを明示的に識別することなく、事前トレーニングされたモデルのプールから 1 つのモデルを選択できるようにするメトリクスが提案されています。
利用可能な事前トレーニング済みモデルの数が増加し、モデル アンサンブルの人気が高まるにつれて、特定のターゲット タスクに対する複数ソース モデルの移行可能性を研究することも不可欠になっています。
既存の取り組みでは、分類層の出力のみを使用して、このようなマルチソース アンサンブル設定における転送可能性を研究しており、ドメインまたはタスクの不一致の可能性は無視されています。
さらに、ソース モデルを選択する際に最も重要な要素、つまり、アンサンブルの予測におけるパフォーマンスと信頼性に影響を与える可能性があるモデル間の凝集性要素を見落としています。
これらのギャップに対処するために、モデルのアンサンブルの下流タスクへの転送可能性を推定するための新しい Optimal transSport ベースの suBmOdular tRaNsferability メトリクス (OSBORN) を提案します。
OSBORN は、画像ドメインの違い、タスクの違い、アンサンブル内のモデルの凝集性を総合的に考慮して、転送可能性の信頼できる推定値を提供します。
画像分類タスクとセマンティック セグメンテーション タスクの両方で OSBORN のパフォーマンスを測定します。
私たちのセットアップには、28 のソース データセット、11 のターゲット データセット、5 つのモデル アーキテクチャ、および 2 つの事前トレーニング メソッドが含まれています。
現在の最先端のメトリクス MS-LEEP および E-LEEP に対してメソッドをベンチマークし、提案されたアプローチを使用することで一貫してそれらを上回ります。
要約(オリジナル)
Estimating the transferability of publicly available pretrained models to a target task has assumed an important place for transfer learning tasks in recent years. Existing efforts propose metrics that allow a user to choose one model from a pool of pre-trained models without having to fine-tune each model individually and identify one explicitly. With the growth in the number of available pre-trained models and the popularity of model ensembles, it also becomes essential to study the transferability of multiple-source models for a given target task. The few existing efforts study transferability in such multi-source ensemble settings using just the outputs of the classification layer and neglect possible domain or task mismatch. Moreover, they overlook the most important factor while selecting the source models, viz., the cohesiveness factor between them, which can impact the performance and confidence in the prediction of the ensemble. To address these gaps, we propose a novel Optimal tranSport-based suBmOdular tRaNsferability metric (OSBORN) to estimate the transferability of an ensemble of models to a downstream task. OSBORN collectively accounts for image domain difference, task difference, and cohesiveness of models in the ensemble to provide reliable estimates of transferability. We gauge the performance of OSBORN on both image classification and semantic segmentation tasks. Our setup includes 28 source datasets, 11 target datasets, 5 model architectures, and 2 pre-training methods. We benchmark our method against current state-of-the-art metrics MS-LEEP and E-LEEP, and outperform them consistently using the proposed approach.
arxiv情報
著者 | Vimal K B,Saketh Bachu,Tanmay Garg,Niveditha Lakshmi Narasimhan,Raghavan Konuru,Vineeth N Balasubramanian |
発行日 | 2023-09-05 17:57:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google