3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation

要約

テキストガイド付き3Dオブジェクト生成は、ユーザが定義したキャプションによって記述された3Dオブジェクトを生成し、想像したものを可視化する柔軟な方法を提供することを目的としている。しかし、これらの研究は、メッシュなどの明示的な3D表現を利用するため、テクスチャがなく、フォトリアリスティックな表示を行うための後処理が必要であったり、個々のケースに対して時間のかかる最適化が必要であったりします。ここでは、テキストからビュー生成モジュールとビューから3D生成モジュールを統合した新しい3D-TOGOモデルによって、汎用的なテキストガイド付きクロスカテゴリ3Dオブジェクト生成を実現する最初の試みを行う。テキスト-トゥ-ビュー生成モジュールは、入力キャプションが与えられたターゲット3Dオブジェクトの異なるビューを生成するように設計されている。事前ガイダンス、キャプションガイダンス、ビュー対照学習は、より良いビュー整合性とキャプション類似性を達成するために提案されている。一方、views-to-3D生成モジュールにはpixelNeRFモデルを採用し、以前に生成されたviewsから暗黙の3D神経表現を得ることができる。この3D-TOGOモデルは、神経輝度場の形で3Dオブジェクトを生成し、質感がよく、キャプションごとに時間コストの最適化を必要としない。さらに、3D-TOGOは、生成される3Dオブジェクトのカテゴリ、色、形状を入力キャプションで制御することができます。最大の3Dオブジェクトデータセット(すなわちABO)に対する広範な実験を行い、3D-TOGOが、テキスト-NeRFおよびDreamfieldsと比較して、PSNR、SSIM、LPIPSおよびCLIP-スコアの観点から、98種類のカテゴリにわたって入力キャプションに応じた高品質の3Dオブジェクトをより良く生成できることを検証した。

要約(オリジナル)

Text-guided 3D object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this challenging task, these works either utilize some explicit 3D representations (e.g., mesh), which lack texture and require post-processing for rendering photo-realistic views; or require individual time-consuming optimization for every single case. Here, we make the first attempt to achieve generic text-guided cross-category 3D object generation via a new 3D-TOGO model, which integrates a text-to-views generation module and a views-to-3D generation module. The text-to-views generation module is designed to generate different views of the target 3D object given an input caption. prior-guidance, caption-guidance and view contrastive learning are proposed for achieving better view-consistency and caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D generation module to obtain the implicit 3D neural representation from the previously-generated views. Our 3D-TOGO model generates 3D objects in the form of the neural radiance field with good texture and requires no time-cost optimization for every single caption. Besides, 3D-TOGO can control the category, color and shape of generated 3D objects with the input caption. Extensive experiments on the largest 3D object dataset (i.e., ABO) are conducted to verify that 3D-TOGO can better generate high-quality 3D objects according to the input captions across 98 different categories, in terms of PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.

arxiv情報

著者 Zutao Jiang,Guangsong Lu,Xiaodan Liang,Jihua Zhu,Wei Zhang,Xiaojun Chang,Hang Xu
発行日 2022-12-02 11:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク