要約
選択は、多くの画像編集プロセスの最初のステップであり、共通のモダリティを共有するすべてのピクセルのより速く、よりシンプルな変更を可能にします。
この作業では、画像に材料選択の方法を提示します。照明と反射率のバリエーションに堅牢で、ダウンストリームの編集タスクに使用できます。
Vision Transformer(VIT)モデルに依存し、選択の機能を活用して、以前の方法よりも細かく安定した選択結果をもたらす多解像度処理戦略を提案しています。
さらに、テクスチャとサブテクスチャの2つのレベルで選択を可能にします。テクスチャレベルとサブテクスチャレベルの両方で、800,000を超える合成画像の密な注釈を含む新しい2レベルの材料選択(DUMAS)データセットを活用します。
要約(オリジナル)
Selection is the first step in many image editing processes, enabling faster and simpler modifications of all pixels sharing a common modality. In this work, we present a method for material selection in images, robust to lighting and reflectance variations, which can be used for downstream editing tasks. We rely on vision transformer (ViT) models and leverage their features for selection, proposing a multi-resolution processing strategy that yields finer and more stable selection results than prior methods. Furthermore, we enable selection at two levels: texture and subtexture, leveraging a new two-level material selection (DuMaS) dataset which includes dense annotations for over 800,000 synthetic images, both on the texture and subtexture levels.
arxiv情報
著者 | Julia Guerrero-Viu,Michael Fischer,Iliyan Georgiev,Elena Garces,Diego Gutierrez,Belen Masia,Valentin Deschaintre |
発行日 | 2025-06-11 17:49:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google