Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data

要約

光リアリックな拡散モデルの開発により、合成データで部分的または完全にトレーニングされたモデルは、徐々により良い結果を達成します。
ただし、拡散モデルは、地上に浮かぶ犬や非現実的なテクスチャアーティファクトなど、現実には存在しない画像を日常的に生成します。
実現可能性の概念を、合成画像内の属性が現実世界のドメインに現実的に存在できるかどうかとして定義します。
この基準に違反する属性を含む合成画像は、実行不可能と見なされます。
直感的には、実行不可能な画像は通常、分散除外と見なされます。
したがって、このような画像のトレーニングは、実際のデータに一般化するモデルの能力を妨げることが期待されているため、可能な限りトレーニングセットから除外する必要があります。
しかし、実現可能性は本当に重要ですか?
この論文では、クリップベースの分類子の合成トレーニングデータを生成するときに実行可能性を施行する必要があるかどうかを調査し、背景、色、テクスチャの3つのターゲット属性に焦点を当てています。
特定のソースイメージを最小限に編集して、大規模な言語モデルによって生成されたテキストプロンプトによって提供される実行可能または実行可能な属性を含むパイプラインであるVariealを紹介します。
私たちの実験では、実現可能性がLORA-Fine-Fineチューニングされたクリップパフォーマンスに影響を及ぼし、3つのきめの細かいデータセットでトップ1の精度がほとんど0.3%未満であることが示されています。
また、属性は、実行可能/実行可能な画像が分類パフォーマンスに敵対的に影響するかどうかについて重要です。
最後に、トレーニングデータセットで実行可能な画像と実行不可能な画像を混合しても、純粋に実行可能または実行可能なデータセットを使用することと比較して、パフォーマンスに大きな影響を与えません。

要約(オリジナル)

With the development of photorealistic diffusion models, models trained in part or fully on synthetic data achieve progressively better results. However, diffusion models still routinely generate images that would not exist in reality, such as a dog floating above the ground or with unrealistic texture artifacts. We define the concept of feasibility as whether attributes in a synthetic image could realistically exist in the real-world domain; synthetic images containing attributes that violate this criterion are considered infeasible. Intuitively, infeasible images are typically considered out-of-distribution; thus, training on such images is expected to hinder a model’s ability to generalize to real-world data, and they should therefore be excluded from the training set whenever possible. However, does feasibility really matter? In this paper, we investigate whether enforcing feasibility is necessary when generating synthetic training data for CLIP-based classifiers, focusing on three target attributes: background, color, and texture. We introduce VariReal, a pipeline that minimally edits a given source image to include feasible or infeasible attributes given by the textual prompt generated by a large language model. Our experiments show that feasibility minimally affects LoRA-fine-tuned CLIP performance, with mostly less than 0.3% difference in top-1 accuracy across three fine-grained datasets. Also, the attribute matters on whether the feasible/infeasible images adversarially influence the classification performance. Finally, mixing feasible and infeasible images in training datasets does not significantly impact performance compared to using purely feasible or infeasible datasets.

arxiv情報

著者 Yiwen Liu,Jessica Bader,Jae Myung Kim
発行日 2025-05-15 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク