Unsupervised Domain Adaptation Via Data Pruning

要約

トレーニング データから慎重に選択された例を削除することが、機械学習モデルの堅牢性を向上させる効果的な方法として最近浮上しました。
ただし、これらの例を選択する最適な方法は未解決の問題のままです。
この論文では、教師なしドメイン適応 (UDA) の観点からこの問題を検討します。
我々は、トレーニングサンプルを削除してトレーニング分布をターゲットデータの分布に合わせようとするUDAの手法であるAdaPruneを提案します。
最大平均不一致 (MMD) を位置合わせの基準として採用することにより、問題を整数 2 次計画としてきちんと定式化し、解くことができます。
生体音響イベント検出という現実世界のドメインシフトタスクに対するアプローチを評価します。
UDA の手法として、AdaPrune が関連技術よりも優れたパフォーマンスを示し、CORAL などの他の UDA アルゴリズムを補完することを示します。
MMD とモデル精度の関係の分析と t-SNE プロットにより、提案された方法がデータ プルーニングを実行する原理的かつ十分に根拠のある方法であることが検証されます。

要約(オリジナル)

The removal of carefully-selected examples from training data has recently emerged as an effective way of improving the robustness of machine learning models. However, the best way to select these examples remains an open question. In this paper, we consider the problem from the perspective of unsupervised domain adaptation (UDA). We propose AdaPrune, a method for UDA whereby training examples are removed to attempt to align the training distribution to that of the target data. By adopting the maximum mean discrepancy (MMD) as the criterion for alignment, the problem can be neatly formulated and solved as an integer quadratic program. We evaluate our approach on a real-world domain shift task of bioacoustic event detection. As a method for UDA, we show that AdaPrune outperforms related techniques, and is complementary to other UDA algorithms such as CORAL. Our analysis of the relationship between the MMD and model accuracy, along with t-SNE plots, validate the proposed method as a principled and well-founded way of performing data pruning.

arxiv情報

著者 Andrea Napoli,Paul White
発行日 2024-09-18 15:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク