要約
機械学習モデルに対するテクスチャの影響については、特にテクスチャのバイアス/学習、解釈可能性、堅牢性に関して継続的な調査が行われています。
しかし、利用可能な大規模かつ多様なテクスチャ データが不足しているため、より包括的な評価が実現できず、これらの研究で得られた知見は限られています。
画像生成モデルは大規模なデータ作成を提供できますが、これらのモデルをテクスチャ合成に利用することは未開発であり、正確なテクスチャ画像の作成とそれらの画像の検証の両方においてさらなる課題が生じています。
この研究では、広範なテクスチャベースのタスクをサポートできる高品質で多様なテクスチャ画像を生成するための拡張可能な方法論と、それに対応する新しいデータセットを紹介します。
私たちのパイプラインは、(1) テキストから画像へのモデルへの入力として機能するさまざまな記述子からプロンプトを開発する、(2) 対応する画像を生成およびフィルターするための安定拡散パイプラインの採用および適応、および (3) さらなるフィルター処理で構成されます。
最高品質の画像まで。
これにより、56 のテクスチャにまたがる 362,880 のテクスチャ イメージのデータセットである Prompted Textures Dataset (PTD) が作成されます。
画像生成のプロセス中に、画像生成パイプラインの NSFW 安全フィルターがテクスチャに非常に敏感であることがわかり (テクスチャ画像の最大 60\% にフラグを立てます)、これらのモデルの潜在的なバイアスが明らかになり、作業時に特有の課題が生じます。
テクスチャデータ。
標準的な指標と人による評価の両方を通じて、私たちのデータセットは高品質で多様であることがわかりました。
要約(オリジナル)
The influence of textures on machine learning models has been an ongoing investigation, specifically in texture bias/learning, interpretability, and robustness. However, due to the lack of large and diverse texture data available, the findings in these works have been limited, as more comprehensive evaluations have not been feasible. Image generative models are able to provide data creation at scale, but utilizing these models for texture synthesis has been unexplored and poses additional challenges both in creating accurate texture images and validating those images. In this work, we introduce an extensible methodology and corresponding new dataset for generating high-quality, diverse texture images capable of supporting a broad set of texture-based tasks. Our pipeline consists of: (1) developing prompts from a range of descriptors to serve as input to text-to-image models, (2) adopting and adapting Stable Diffusion pipelines to generate and filter the corresponding images, and (3) further filtering down to the highest quality images. Through this, we create the Prompted Textures Dataset (PTD), a dataset of 362,880 texture images that span 56 textures. During the process of generating images, we find that NSFW safety filters in image generation pipelines are highly sensitive to texture (and flag up to 60\% of our texture images), uncovering a potential bias in these models and presenting unique challenges when working with texture data. Through both standard metrics and a human evaluation, we find that our dataset is high quality and diverse.
arxiv情報
著者 | Blaine Hoak,Patrick McDaniel |
発行日 | 2024-09-16 14:02:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google