Compositional World Knowledge leads to High Utility Synthetic data

要約

機械学習システムは、亜集団シフトの下で、堅牢性と闘っています。
この問題は、トレーニング中に属性の組み合わせのサブセットのみが観察されるシナリオで特に顕著になります – 組成シフトと呼ばれる重度の亜集団シフトの形態。
この問題に対処するために、次の質問をします。すべての可能な属性の組み合わせにまたがる合成データのトレーニングによって堅牢性を改善できますか?
最初に、限られたデータ上の条件拡散モデルのトレーニングが根本的な分布が誤っていることを示しています。
したがって、そのようなモデルからサンプリングされた合成データは、不誠実なサンプルをもたらし、下流の機械学習システムのパフォーマンスを改善することはありません。
この問題に対処するために、フィッシャーの共同分布と限界分布の間の相違を最小限に抑えることにより、条件付きの独立性を強制することにより、世界の構成の性質を反映するように協調することを提案します。
Coindによって生成された合成データは忠実であり、これはCelebaの構成シフトタスクに関する最新の最悪のグループの精度につながることを実証します。

要約(オリジナル)

Machine learning systems struggle with robustness, under subpopulation shifts. This problem becomes especially pronounced in scenarios where only a subset of attribute combinations is observed during training -a severe form of subpopulation shift, referred as compositional shift. To address this problem, we ask the following question: Can we improve the robustness by training on synthetic data, spanning all possible attribute combinations? We first show that training of conditional diffusion models on limited data lead to incorrect underlying distribution. Therefore, synthetic data sampled from such models will result in unfaithful samples and does not lead to improve performance of downstream machine learning systems. To address this problem, we propose CoInD to reflect the compositional nature of the world by enforcing conditional independence through minimizing Fisher’s divergence between joint and marginal distributions. We demonstrate that synthetic data generated by CoInD is faithful and this translates to state-of-the-art worst-group accuracy on compositional shift tasks on CelebA.

arxiv情報

著者 Sachit Gaudi,Gautam Sreekumar,Vishnu Boddeti
発行日 2025-03-06 18:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク