ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation

要約

テキストを用いた3次元形状生成は、テキストと形状のペアデータがないこと、2つのモダリティ間の意味的なギャップが大きいこと、3次元形状の構造が複雑であることから、依然として困難な課題である。本論文では、2次元画像を2つのモダリティをつなぐ踏み台として導入し、テキストと図形のペアデータを不要にすることで、この課題に対する新しいフレームワークImage as Stepping Stone (ISS) を提案する。まず、CLIP画像の特徴をSVRモデル内の詳細な形状空間にマッピングし、次にCLIPテキストの特徴を形状空間にマッピングし、入力テキストとレンダリング画像間のCLIPの整合性を促すことでマッピングを最適化します。さらに、テキストに導かれた形状定型化モジュールを定式化し、出力形状を新しいテクスチャで着飾る。テキストからの3次元形状生成に関する既存の研究を超えて、我々の新しいアプローチは、テキストと形状のペアデータを必要とせず、広範なカテゴリの形状を生成するための一般的なものである。実験の結果、本アプローチは、テキストとの忠実度や整合性の点で最先端技術や我々のベースラインを凌駕することが明らかとなった。さらに、本アプローチは、生成された形状を現実的、幻想的な構造やテクスチャでスタイル化することができる。

要約(オリジナル)

Text-guided 3D shape generation remains challenging due to the absence of large paired text-shape data, the substantial semantic gap between these two modalities, and the structural complexity of 3D shapes. This paper presents a new framework called Image as Stepping Stone (ISS) for the task by introducing 2D image as a stepping stone to connect the two modalities and to eliminate the need for paired text-shape data. Our key contribution is a two-stage feature-space-alignment approach that maps CLIP features to shapes by harnessing a pre-trained single-view reconstruction (SVR) model with multi-view supervisions: first map the CLIP image feature to the detail-rich shape space in the SVR model, then map the CLIP text feature to the shape space and optimize the mapping by encouraging CLIP consistency between the input text and the rendered images. Further, we formulate a text-guided shape stylization module to dress up the output shapes with novel textures. Beyond existing works on 3D shape generation from text, our new approach is general for creating shapes in a broad range of categories, without requiring paired text-shape data. Experimental results manifest that our approach outperforms the state-of-the-arts and our baselines in terms of fidelity and consistency with text. Further, our approach can stylize the generated shapes with both realistic and fantasy structures and textures.

arxiv情報

著者 Zhengzhe Liu,Peng Dai,Ruihui Li,Xiaojuan Qi,Chi-Wing Fu
発行日 2022-09-09 06:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク