T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation

要約

Text-to-3D の最近の手法では、強力な事前トレーニング済み拡散モデルを利用して NeRF を最適化しています。
特に、これらの方法では、3D データのトレーニングを行わずに高品質の 3D シーンを生成できます。
このタスクのオープンエンドの性質により、ほとんどの研究は主観的なケーススタディやユーザー実験によって結果を評価するため、「Text-to-3D の現在の進歩はこれまでどのようになったのか?」という質問に定量的に対処する際に課題が生じています。
このペーパーでは、3D 生成用に特別に設計された 3 つの複雑さレベルの多様なテキスト プロンプトを含む、最初の包括的なテキストから 3D へのベンチマークである T$^3$Bench を紹介します。
主観的な品質とテキストの配置の両方を評価するために、3D コンテンツによって生成されたマルチビュー画像に基づく 2 つの自動指標を提案します。
品質メトリクスは、マルチビューのテキスト画像スコアと領域畳み込みを組み合わせて、品質とビューの不一致を検出します。
アライメントメトリクスは、マルチビューキャプションと GPT-4 評価を使用して、テキストと 3D の一貫性を測定します。
どちらの指標も人間の判断のさまざまな側面と密接に相関しており、テキストから 3D モデルへの変換を効率的に評価するためのパラダイムを提供します。
図 1 に示すベンチマーク結果は、広く普及している 10 種類のテキストから 3D への変換方法間のパフォーマンスの違いを明らかにしています。
私たちの分析では、環境やマルチオブジェクト シーンを生成する現在の方法に共通する課題と、3D 生成に 2D ガイダンスを活用する際のボトルネックがさらに浮き彫りになっています。
私たちのプロジェクト ページは https://t3bench.com でご覧いただけます。

要約(オリジナル)

Recent methods in text-to-3D leverage powerful pretrained diffusion models to optimize NeRF. Notably, these methods are able to produce high-quality 3D scenes without training on 3D data. Due to the open-ended nature of the task, most studies evaluate their results with subjective case studies and user experiments, thereby presenting a challenge in quantitatively addressing the question: How has current progress in Text-to-3D gone so far? In this paper, we introduce T$^3$Bench, the first comprehensive text-to-3D benchmark containing diverse text prompts of three increasing complexity levels that are specially designed for 3D generation. To assess both the subjective quality and the text alignment, we propose two automatic metrics based on multi-view images produced by the 3D contents. The quality metric combines multi-view text-image scores and regional convolution to detect quality and view inconsistency. The alignment metric uses multi-view captioning and GPT-4 evaluation to measure text-3D consistency. Both metrics closely correlate with different dimensions of human judgments, providing a paradigm for efficiently evaluating text-to-3D models. The benchmarking results, shown in Fig. 1, reveal performance differences among an extensive 10 prevalent text-to-3D methods. Our analysis further highlights the common struggles for current methods on generating surroundings and multi-object scenes, as well as the bottleneck of leveraging 2D guidance for 3D generation. Our project page is available at: https://t3bench.com.

arxiv情報

著者 Yuze He,Yushi Bai,Matthieu Lin,Wang Zhao,Yubin Hu,Jenny Sheng,Ran Yi,Juanzi Li,Yong-Jin Liu
発行日 2024-04-17 09:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク