ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation

要約

テキストガイドによる 3D 形状の生成は、対になった大規模なテキスト形状データがないこと、これら 2 つのモダリティ間の実質的なセマンティック ギャップ、および 3D 形状の構造上の複雑さのために、依然として困難です。
この論文では、2 つのモダリティを接続し、ペアのテキスト形状データの必要性を排除するための足がかりとして 2D 画像を導入することにより、タスクの踏み台としてのイメージ (ISS) と呼ばれる新しいフレームワークを提示します。
私たちの重要な貢献は、事前にトレーニングされた単一ビュー再構成 (SVR) モデルをマルチビュー監視で利用することにより、CLIP 機能を形状にマッピングする 2 段階の機能空間アライメント アプローチです。最初に、CLIP 画像機能を詳細にマッピングします。
SVR モデルの豊富な形状空間、次に CLIP テキスト機能を形状空間にマッピングし、入力テキストとレンダリングされた画像の間の CLIP の一貫性を促進することでマッピングを最適化します。
さらに、出力形状を斬新なテクスチャでドレスアップするために、テキストガイド付きの形状定型化モジュールを定式化します。
テキストからの 3D 形状生成に関する既存の作業を超えて、私たちの新しいアプローチは、ペアのテキスト形状データを必要とせずに、幅広いカテゴリで形状を作成するための一般的なものです。
実験結果は、私たちのアプローチが、忠実度とテキストとの一貫性という点で、最新技術と私たちのベースラインよりも優れていることを示しています。
さらに、私たちのアプローチは、現実的および幻想的な構造とテクスチャの両方で、生成された形状を様式化できます。

要約(オリジナル)

Text-guided 3D shape generation remains challenging due to the absence of large paired text-shape data, the substantial semantic gap between these two modalities, and the structural complexity of 3D shapes. This paper presents a new framework called Image as Stepping Stone (ISS) for the task by introducing 2D image as a stepping stone to connect the two modalities and to eliminate the need for paired text-shape data. Our key contribution is a two-stage feature-space-alignment approach that maps CLIP features to shapes by harnessing a pre-trained single-view reconstruction (SVR) model with multi-view supervisions: first map the CLIP image feature to the detail-rich shape space in the SVR model, then map the CLIP text feature to the shape space and optimize the mapping by encouraging CLIP consistency between the input text and the rendered images. Further, we formulate a text-guided shape stylization module to dress up the output shapes with novel textures. Beyond existing works on 3D shape generation from text, our new approach is general for creating shapes in a broad range of categories, without requiring paired text-shape data. Experimental results manifest that our approach outperforms the state-of-the-arts and our baselines in terms of fidelity and consistency with text. Further, our approach can stylize the generated shapes with both realistic and fantasy structures and textures.

arxiv情報

著者 Zhengzhe Liu,Peng Dai,Ruihui Li,Xiaojuan Qi,Chi-Wing Fu
発行日 2023-02-24 01:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク