Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators

要約

ニューラル画像分類器は、トレーニング分布に関して共変量シフトを示す入力にさらされると、深刻なパフォーマンス低下を受けることが知られています。
偽の変数に対する任意の介入をシミュレートする一般的な介入データ拡張 (IDA) メカニズムは、この問題の理論的解決策としてしばしば推測され、さまざまな程度の成功に近似されてきました。
この研究では、最新の Text-to-Image (T2I) ジェネレーターと関連する画像編集技術が IDA の問題をどの程度解決できるかを研究します。
私たちは、介入プロンプト、条件付けメカニズム、事後フィルタリングなど、T2I 生成の主要な側面を網羅するドメイン一般化におけるベンチマークの多様なコレクションを実験し、これまでの最先端の画像拡張技術を単独で大幅に上回るパフォーマンスを示しました。
各ディメンションがどのように構成されているかを説明します。
私たちは、画像編集と合成に T2I を使用することの比較利点について議論します。また、単純な検索ベースラインが驚くほど効果的な代替手段であることも発見しました。これにより、領域一般化の文脈で生成モデルをどのように評価すべきかについて興味深い疑問が生じます。

要約(オリジナル)

Neural image classifiers are known to undergo severe performance degradation when exposed to inputs that exhibit covariate shifts with respect to the training distribution. A general interventional data augmentation (IDA)mechanism that simulates arbitrary interventions over spurious variables has often been conjectured as a theoretical solution to this problem and approximated to varying degrees of success. In this work, we study how well modern Text-to-Image (T2I) generators and associated image editing techniques can solve the problem of IDA. We experiment across a diverse collection of benchmarks in domain generalization, ablating across key dimensions of T2I generation, including interventional prompts, conditioning mechanisms, and post-hoc filtering, showing that it substantially outperforms previously state-of-the-art image augmentation techniques independently of how each dimension is configured. We discuss the comparative advantages of using T2I for image editing versus synthesis, also finding that a simple retrieval baseline presents a surprisingly effective alternative, which raises interesting questions about how generative models should be evaluated in the context of domain generalization.

arxiv情報

著者 Jianhao Yuan,Francesco Pinto,Adam Davies,Philip Torr
発行日 2023-10-20 14:35:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク