MetaSel: A Test Selection Approach for Fine-tuned DNN Models

要約

ディープニューラルネットワーク(DNNS)は、データ分布のシフトによる展開中に課題に直面しています。
微調整は、より小さなラベル付きセットを必要とする新しいコンテキストに事前に訓練されたモデルを適応させます。
ただし、制約されたラベル付け予算の下で微調整されたモデルをテストすることは依然として重要な課題です。
このペーパーでは、微調整されたDNNモデルに合わせて調整された新しいアプローチであるMetaselを紹介し、非標識入力からテストを選択します。
Metaselは、微調整された事前に訓練されたモデルが関連するデータ分布を共有し、多くの入力に対して同様の動作を示すと想定しています。
ただし、それらの動作は、微調整が決定境界を変更する入力サブスペース内で分岐し、それらの入力がより誤分類の傾向があるようにします。
DNNモデルとその入力セットのみに依存する一般的なアプローチとは異なり、メタセルは微調整されたモデルと事前に訓練されたモデルとその行動の違いの両方から情報を活用して、より効果的なテスト入力の誤分類確率を推定し、より効果的なテスト選択を可能にします。
メタセルと10の最先端のアプローチと比較し、弱い、中程度、および強力な分布シフトにわたって68の微調整されたモデルを含む広範な経験的評価は、メタセルが既存のベースライン、特に高度に制約されたラベリング予算の下で、テスト相対カバレッジ(TRC)の大幅な改善を一貫して提供することを示しています。
メタセルは、高頻度の2番目のベースラインで平均TRCの改善が28.46%から56.18%であることを示していますが、高TRCの中央値と低い変動性を維持しています。
我々の結果は、微調整されたモデルのコンテキストでのテスト選択のメタセルの実用性、堅牢性、および費用対効果を裏付けています。

要約(オリジナル)

Deep Neural Networks (DNNs) face challenges during deployment due to data distribution shifts. Fine-tuning adapts pre-trained models to new contexts requiring smaller labeled sets. However, testing fine-tuned models under constrained labeling budgets remains a critical challenge. This paper introduces MetaSel, a new approach, tailored for fine-tuned DNN models, to select tests from unlabeled inputs. MetaSel assumes that fine-tuned and pre-trained models share related data distributions and exhibit similar behaviors for many inputs. However, their behaviors diverge within the input subspace where fine-tuning alters decision boundaries, making those inputs more prone to misclassification. Unlike general approaches that rely solely on the DNN model and its input set, MetaSel leverages information from both the fine-tuned and pre-trained models and their behavioral differences to estimate misclassification probability for unlabeled test inputs, enabling more effective test selection. Our extensive empirical evaluation, comparing MetaSel against 10 state-of-the-art approaches and involving 68 fine-tuned models across weak, medium, and strong distribution shifts, demonstrates that MetaSel consistently delivers significant improvements in Test Relative Coverage (TRC) over existing baselines, particularly under highly constrained labeling budgets. MetaSel shows average TRC improvements of 28.46% to 56.18% over the most frequent second-best baselines while maintaining a high TRC median and low variability. Our results confirm MetaSel’s practicality, robustness, and cost-effectiveness for test selection in the context of fine-tuned models.

arxiv情報

著者 Amin Abbasishahkoo,Mahboubeh Dadkhah,Lionel Briand,Dayi Lin
発行日 2025-03-25 16:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク