X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance

要約

テキスト駆動型3Dスタイライゼーションは、コンピュータビジョン(CV)やコンピュータグラフィックス(CG)の分野において、複雑かつ重要なタスクであり、ターゲットテキストに合うように裸のメッシュを変換することを目的としている。先行する手法では、テキストに依存しない多層パーセプトロン(MLP)を採用し、CLIP損失を監視しながらターゲットメッシュの属性を予測している。しかし、このようなテキストに依存しないアーキテクチャは、属性を予測する際のテキストガイダンスに欠けるため、不満足なスタイル化と遅い収束につながる。これらの限界に対処するために、我々はX-Meshを発表する。X-Meshは、新しいテキスト誘導型動的注意モジュール(TDAM)を組み込んだ革新的なテキスト誘導型3Dスタイル化フレームワークである。TDAMは、頂点特徴抽出中にテキストに関連した空間的およびチャネル的な注意を利用することにより、ターゲットテキストのガイダンスを動的に統合し、より正確な属性予測と高速な収束速度をもたらします。さらに、既存の作品には、評価のための標準的なベンチマークや自動化されたメトリクスが欠けており、多くの場合、スタイライズされた3Dアセットの品質を評価するために、主観的で再現性のないユーザー研究に依存しています。この制限を克服するために、我々は新しい標準的なテキストメッシュベンチマークであるMIT-30と2つの自動化された評価基準を導入し、将来の研究が公正で客観的な比較を達成できるようにします。我々の広範な定性的・定量的実験により、X-Meshがこれまでの最先端手法を凌駕することが実証されました。

要約(オリジナル)

Text-driven 3D stylization is a complex and crucial task in the fields of computer vision (CV) and computer graphics (CG), aimed at transforming a bare mesh to fit a target text. Prior methods adopt text-independent multilayer perceptrons (MLPs) to predict the attributes of the target mesh with the supervision of CLIP loss. However, such text-independent architecture lacks textual guidance during predicting attributes, thus leading to unsatisfactory stylization and slow convergence. To address these limitations, we present X-Mesh, an innovative text-driven 3D stylization framework that incorporates a novel Text-guided Dynamic Attention Module (TDAM). The TDAM dynamically integrates the guidance of the target text by utilizing text-relevant spatial and channel-wise attentions during vertex feature extraction, resulting in more accurate attribute prediction and faster convergence speed. Furthermore, existing works lack standard benchmarks and automated metrics for evaluation, often relying on subjective and non-reproducible user studies to assess the quality of stylized 3D assets. To overcome this limitation, we introduce a new standard text-mesh benchmark, namely MIT-30, and two automated metrics, which will enable future research to achieve fair and objective comparisons. Our extensive qualitative and quantitative experiments demonstrate that X-Mesh outperforms previous state-of-the-art methods.

arxiv情報

著者 Yiwei Ma,Xiaioqing Zhang,Xiaoshuai Sun,Jiayi Ji,Haowei Wang,Guannan Jiang,Weilin Zhuang,Rongrong Ji
発行日 2023-08-04 15:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク