要約
現実世界の多くの分類問題には、避けられないロングテールのクラス不均衡の問題があります。
この問題に対処する現在の方法では、すべての例が同じディストリビューションに由来するシナリオのみが考慮されています。
ただし、多くの場合、明確なクラスの不均衡がある複数のドメインが存在します。
私たちはこのマルチドメインのロングテール学習問題を研究し、すべてのクラスとドメインにわたって適切に一般化できるモデルを作成することを目指しています。
その目標に向けて、このマルチドメインのロングテール学習の問題に対処する手法である TALLY を紹介します。
提案された選択的バランス サンプリング戦略に基づいて構築された TALLY は、ある例の意味表現と別の例のドメイン関連の迷惑表現を混合し、データ拡張として使用するための新しい表現を生成することでこれを実現します。
セマンティック表現のもつれを解くことを改善するために、TALLY はドメイン固有の効果を平均化するドメイン不変クラス プロトタイプをさらに利用します。
いくつかのベンチマークと現実世界のデータセットで TALLY を評価したところ、部分母集団とドメイン シフトの両方において、他の最先端の手法よりも一貫して優れていることがわかりました。
コードとデータは https://github.com/huaxiuyao/TALLY で公開されています。
要約(オリジナル)
There is an inescapable long-tailed class-imbalance issue in many real-world classification problems. Current methods for addressing this problem only consider scenarios where all examples come from the same distribution. However, in many cases, there are multiple domains with distinct class imbalance. We study this multi-domain long-tailed learning problem and aim to produce a model that generalizes well across all classes and domains. Towards that goal, we introduce TALLY, a method that addresses this multi-domain long-tailed learning problem. Built upon a proposed selective balanced sampling strategy, TALLY achieves this by mixing the semantic representation of one example with the domain-associated nuisances of another, producing a new representation for use as data augmentation. To improve the disentanglement of semantic representations, TALLY further utilizes a domain-invariant class prototype that averages out domain-specific effects. We evaluate TALLY on several benchmarks and real-world datasets and find that it consistently outperforms other state-of-the-art methods in both subpopulation and domain shift. Our code and data have been released at https://github.com/huaxiuyao/TALLY.
arxiv情報
著者 | Xinyu Yang,Huaxiu Yao,Allan Zhou,Chelsea Finn |
発行日 | 2023-10-06 17:34:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google