A Survey On Text-to-3D Contents Generation In The Wild

要約

3D コンテンツの作成は、ゲーム、ロボット シミュレーション、仮想現実などのさまざまなアプリケーションで重要な役割を果たします。
ただし、このプロセスは多大な労力と時間がかかるため、熟練したデザイナーが 1 つの 3D アセットを作成するのに多大な労力を費やす必要があります。
この課題に対処するために、テキストから 3D への生成テクノロジーが、3D 作成を自動化するための有望なソリューションとして登場しました。
これらの技術は、大規模ビジョン言語モデルの成功を活用して、テキストの説明に基づいて 3D コンテンツを生成することを目的としています。
この分野における最近の進歩にもかかわらず、既存のソリューションは、生成の品質と効率の点で依然として大きな制限に直面しています。
この調査では、最新のテキストから 3D への作成方法について徹底的に調査します。
トレーニングに使用されるデータセットや、生成された 3D モデルの品質を評価するために使用される評価指標に関する議論など、テキストから 3D への作成に関する包括的な背景を提供します。
次に、3D 生成プロセスの基礎となるさまざまな 3D 表現について詳しく説明します。
さらに、生成パイプラインに関する急速に増加している文献を、フィードフォワード ジェネレーター、最適化ベースの生成、およびビュー再構築アプローチに分類して徹底的に比較します。
これらの手法の長所と短所を検討することで、それぞれの機能と限界を明らかにすることを目指しています。
最後に、将来の研究に向けたいくつかの有望な道を指摘します。
この調査により、私たちは研究者にオープンボキャブラリーのテキスト条件付き 3D コンテンツ作成の可能性をさらに探求してもらいたいと考えています。

要約(オリジナル)

3D content creation plays a vital role in various applications, such as gaming, robotics simulation, and virtual reality. However, the process is labor-intensive and time-consuming, requiring skilled designers to invest considerable effort in creating a single 3D asset. To address this challenge, text-to-3D generation technologies have emerged as a promising solution for automating 3D creation. Leveraging the success of large vision language models, these techniques aim to generate 3D content based on textual descriptions. Despite recent advancements in this area, existing solutions still face significant limitations in terms of generation quality and efficiency. In this survey, we conduct an in-depth investigation of the latest text-to-3D creation methods. We provide a comprehensive background on text-to-3D creation, including discussions on datasets employed in training and evaluation metrics used to assess the quality of generated 3D models. Then, we delve into the various 3D representations that serve as the foundation for the 3D generation process. Furthermore, we present a thorough comparison of the rapidly growing literature on generative pipelines, categorizing them into feedforward generators, optimization-based generation, and view reconstruction approaches. By examining the strengths and weaknesses of these methods, we aim to shed light on their respective capabilities and limitations. Lastly, we point out several promising avenues for future research. With this survey, we hope to inspire researchers further to explore the potential of open-vocabulary text-conditioned 3D content creation.

arxiv情報

著者 Chenhan Jiang
発行日 2024-05-15 15:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク