要約
ニューラル画像分類器は、トレーニング分布に関して共変量シフトを示す入力にさらされると、パフォーマンスが大幅に低下することが知られています。
成功した手作りの拡張パイプラインは、予想されるテスト ドメイン条件を近似するか、トレーニング環境に固有の機能を乱すことを目的としています。
通常、効果的なパイプラインの開発は面倒であり、分類子のパフォーマンスへの影響を理解したり制御したりするのが難しい変換を生成します。
この論文では、自然言語プロンプトを介して画像介入をシミュレートする最近の Text-to-Image (T2I) ジェネレーターの機能を活用して、より堅牢なモデルをトレーニングし、従来の拡張方法に代わる、より解釈可能で制御可能な代替手段を提供できることを示します。
広く採用されているドメイン一般化ベンチマークで最先端のパフォーマンスを達成し、偽の特徴への分類子の依存を減らすのに十分な合成トレーニング データを生成するには、さまざまなプロンプト メカニズムが効果的であることがわかりました。
私たちの仕事は、T2I生成のさらなる進歩と他の研究分野とのより緊密な統合が、より堅牢な機械学習システムの開発に向けた重要な一歩になる可能性があることを示唆しています.
要約(オリジナル)
Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate-shift with respect to the training distribution. Successful hand-crafted augmentation pipelines aim at either approximating the expected test domain conditions or to perturb the features that are specific to the training environment. The development of effective pipelines is typically cumbersome, and produce transformations whose impact on the classifier performance are hard to understand and control. In this paper, we show that recent Text-to-Image (T2I) generators’ ability to simulate image interventions via natural-language prompts can be leveraged to train more robust models, offering a more interpretable and controllable alternative to traditional augmentation methods. We find that a variety of prompting mechanisms are effective for producing synthetic training data sufficient to achieve state-of-the-art performance in widely-adopted domain-generalization benchmarks and reduce classifiers’ dependency on spurious features. Our work suggests that further progress in T2I generation and a tighter integration with other research fields may represent a significant step towards the development of more robust machine learning systems.
arxiv情報
著者 | Jianhao Yuan,Francesco Pinto,Adam Davies,Aarushi Gupta,Philip Torr |
発行日 | 2022-12-21 18:07:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google