Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations

要約

タイトル:美しい画像だけではない:テキストから画像を生成することで、解釈可能な介入が可能になり、堅牢な表現が得られる

要約:

– ニューラル画像分類器は、トレーニング分布に関して共変量シフトを示す入力に露出されると、重大なパフォーマンス低下を引き起こすことが知られています。
– 本稿では、最近のテキストから画像(T2I)ジェネレーターが、自然言語の指示によって画像を編集して介入を近似する能力は、より堅牢な分類器を訓練する有望な技術であることを示します。
– 現在のオープンソースモデルを使用して、さまざまなプロンプティング戦略が効果的であり、以下のことがわかりました。

1.広く採用されている単一ドメイン汎化ベンチマークで最先端のパフォーマンスを達成するために十分な拡張トレーニングデータセットを生成する。
2.ランダムな特徴量に依存する分類器の依存性を減らす。
3.トレーニングドメインが少ない場合に、マルチドメイン汎化技術の適用を容易にする。

要約(オリジナル)

Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate shift with respect to the training distribution. In this paper, we show that recent Text-to-Image (T2I) generators’ ability to edit images to approximate interventions via natural-language prompts is a promising technology to train more robust classifiers. Using current open-source models, we find that a variety of prompting strategies are effective for producing augmented training datasets sufficient to achieve state-of-the-art performance (1) in widely adopted Single-Domain Generalization benchmarks, (2) in reducing classifiers’ dependency on spurious features and (3) facilitating the application of Multi-Domain Generalization techniques when fewer training domains are available.

arxiv情報

著者 Jianhao Yuan,Francesco Pinto,Adam Davies,Aarushi Gupta,Philip Torr
発行日 2023-04-06 14:32:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク