On Multi-Domain Long-Tailed Recognition, Imbalanced Domain Generalization and Beyond

要約

実世界のデータは、多くの場合、不均衡なラベル分布を示します。
データの不均衡に関する既存の研究は、単一ドメインの設定に焦点を当てています。つまり、サンプルは同じデータ分布からのものです。
ただし、自然データは、あるドメインの少数派クラスが他のドメインからの豊富なインスタンスを持つ可能性がある、異なるドメインから発生する可能性があります。
Multi-Domain Long-Tailed Recognition (MDLT) のタスクを形式化します。MDLT は、マルチドメインの不均衡なデータから学習し、ラベルの不均衡、ドメイン シフト、およびドメイン間の発散ラベル分布に対処し、すべてのドメイン クラスのペアに一般化します。
最初にドメインクラスの転送可能性グラフを作成し、そのような転送可能性が MDLT での学習の成功を左右することを示します。
次に、理論的に根拠のある学習戦略である BoDA を提案します。これは、転送可能性統計の上限を追跡し、不均衡なドメインクラス分布全体でバランスのとれた配置とキャリブレーションを保証します。
広く使用されているマルチドメイン データセットに基づいて 5 つの MDLT ベンチマークをキュレートし、さまざまな学習戦略にまたがる 20 のアルゴリズムと BoDA を比較します。
広範かつ厳密な実験により、BoDA の優れた性能が検証されています。
さらに、副産物として、BoDA はドメインの一般化ベンチマークに関する新しい最先端技術を確立し、ドメイン間のデータの不均衡に対処することの重要性を強調しています。
コードとデータは https://github.com/YyzHarry/multi-domain-imbalance で入手できます。

要約(オリジナル)

Real-world data often exhibit imbalanced label distributions. Existing studies on data imbalance focus on single-domain settings, i.e., samples are from the same data distribution. However, natural data can originate from distinct domains, where a minority class in one domain could have abundant instances from other domains. We formalize the task of Multi-Domain Long-Tailed Recognition (MDLT), which learns from multi-domain imbalanced data, addresses label imbalance, domain shift, and divergent label distributions across domains, and generalizes to all domain-class pairs. We first develop the domain-class transferability graph, and show that such transferability governs the success of learning in MDLT. We then propose BoDA, a theoretically grounded learning strategy that tracks the upper bound of transferability statistics, and ensures balanced alignment and calibration across imbalanced domain-class distributions. We curate five MDLT benchmarks based on widely-used multi-domain datasets, and compare BoDA to twenty algorithms that span different learning strategies. Extensive and rigorous experiments verify the superior performance of BoDA. Further, as a byproduct, BoDA establishes new state-of-the-art on Domain Generalization benchmarks, highlighting the importance of addressing data imbalance across domains, which can be crucial for improving generalization to unseen domains. Code and data are available at: https://github.com/YyzHarry/multi-domain-imbalance.

arxiv情報

著者 Yuzhe Yang,Hao Wang,Dina Katabi
発行日 2022-08-01 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク