3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation

要約

テキストガイドによる 3D オブジェクト生成は、ユーザー定義のキャプションによって記述された 3D オブジェクトを生成することを目的としており、これにより、想像したものを視覚化する柔軟な方法が開かれます。
いくつかの作品は、この困難な課題の解決に注力されていますが、これらの作品は、テクスチャが不足しており、フォトリアリスティックなビューをレンダリングするための後処理を必要とする、いくつかの明示的な 3D 表現 (メッシュなど) を利用しています。
または、ケースごとに時間のかかる個別の最適化が必要になります。
ここでは、テキストからビューへの生成モジュールとビューから 3D への生成モジュールを統合した新しい 3D-TOGO モデルを介して、汎用のテキストガイドによるカテゴリをまたぐ 3D オブジェクト生成を実現する最初の試みを行います。
テキストからビューへの生成モジュールは、入力キャプションが与えられたターゲット 3D オブジェクトのさまざまなビューを生成するように設計されています。
より良いビューの一貫性とキャプションの類似性を達成するために、事前ガイダンス、キャプションガイダンス、およびビュー対比学習が提案されています。
一方、pixelNeRF モデルは、以前に生成されたビューから暗黙的な 3D ニューラル表現を取得するために、view-to-3D 生成モジュールに採用されています。
当社の 3D-TOGO モデルは、良好なテクスチャを備えたニューラル放射フィールドの形式で 3D オブジェクトを生成し、キャプションごとに時間とコストの最適化を必要としません。
さらに、3D-TOGO は、入力されたキャプションを使用して、生成された 3D オブジェクトのカテゴリ、色、形状を制御できます。
最大の 3D オブジェクト データセット (つまり、ABO) に関する広範な実験が行われ、PSNR、SSIM、LPIPS、CLIP の観点から、3D-TOGO が 98 の異なるカテゴリにわたる入力キャプションに従って高品質の 3D オブジェクトをより適切に生成できることを検証しました。
text-NeRF および Dreamfields と比較したスコア。

要約(オリジナル)

Text-guided 3D object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this challenging task, these works either utilize some explicit 3D representations (e.g., mesh), which lack texture and require post-processing for rendering photo-realistic views; or require individual time-consuming optimization for every single case. Here, we make the first attempt to achieve generic text-guided cross-category 3D object generation via a new 3D-TOGO model, which integrates a text-to-views generation module and a views-to-3D generation module. The text-to-views generation module is designed to generate different views of the target 3D object given an input caption. prior-guidance, caption-guidance and view contrastive learning are proposed for achieving better view-consistency and caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D generation module to obtain the implicit 3D neural representation from the previously-generated views. Our 3D-TOGO model generates 3D objects in the form of the neural radiance field with good texture and requires no time-cost optimization for every single caption. Besides, 3D-TOGO can control the category, color and shape of generated 3D objects with the input caption. Extensive experiments on the largest 3D object dataset (i.e., ABO) are conducted to verify that 3D-TOGO can better generate high-quality 3D objects according to the input captions across 98 different categories, in terms of PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.

arxiv情報

著者 Zutao Jiang,Guansong Lu,Xiaodan Liang,Jihua Zhu,Wei Zhang,Xiaojun Chang,Hang Xu
発行日 2023-08-16 07:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク