要約
実際のデータは、多くの場合、不均衡なラベル分布を示します。
データの不均衡に関する既存の研究は、単一ドメインの設定に焦点を当てています。つまり、サンプルは同じデータ分布からのものです。
ただし、自然データは、あるドメインの少数派クラスが他のドメインからの豊富なインスタンスを持つ可能性がある別個のドメインから発生する可能性があります。
マルチドメインロングテール認識(MDLT)のタスクを形式化します。これは、マルチドメインの不均衡なデータから学習し、ラベルの不均衡、ドメインシフト、およびドメイン間の異なるラベルの分布に対処し、すべてのドメインとクラスのペアに一般化します。
まず、ドメインクラスの転送可能性グラフを作成し、そのような転送可能性がMDLTでの学習の成功を左右することを示します。
次に、転送可能性統計の上限を追跡し、不均衡なドメインクラス分布全体でバランスの取れたアライメントとキャリブレーションを保証する、理論的に根拠のある学習戦略であるBoDAを提案します。
広く使用されているマルチドメインデータセットに基づいて5つのMDLTベンチマークをキュレートし、BoDAをさまざまな学習戦略にまたがる20のアルゴリズムと比較します。
広範囲にわたる厳密な実験により、BoDAの優れたパフォーマンスが検証されます。
さらに、副産物として、BoDAはドメイン一般化ベンチマークに関する新しい最先端技術を確立し、ドメイン間のデータの不均衡に対処することの重要性を強調します。これは、見えないドメインへの一般化を改善するために重要です。
コードとデータは、https://github.com/YyzHarry/multi-domain-imbalanceで入手できます。
要約(オリジナル)
Real-world data often exhibit imbalanced label distributions. Existing studies on data imbalance focus on single-domain settings, i.e., samples are from the same data distribution. However, natural data can originate from distinct domains, where a minority class in one domain could have abundant instances from other domains. We formalize the task of Multi-Domain Long-Tailed Recognition (MDLT), which learns from multi-domain imbalanced data, addresses label imbalance, domain shift, and divergent label distributions across domains, and generalizes to all domain-class pairs. We first develop the domain-class transferability graph, and show that such transferability governs the success of learning in MDLT. We then propose BoDA, a theoretically grounded learning strategy that tracks the upper bound of transferability statistics, and ensures balanced alignment and calibration across imbalanced domain-class distributions. We curate five MDLT benchmarks based on widely-used multi-domain datasets, and compare BoDA to twenty algorithms that span different learning strategies. Extensive and rigorous experiments verify the superior performance of BoDA. Further, as a byproduct, BoDA establishes new state-of-the-art on Domain Generalization benchmarks, highlighting the importance of addressing data imbalance across domains, which can be crucial for improving generalization to unseen domains. Code and data are available at: https://github.com/YyzHarry/multi-domain-imbalance.
arxiv情報
著者 | Yuzhe Yang,Hao Wang,Dina Katabi |
発行日 | 2022-07-11 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google