要約
大規模なテキストと 3D の対応データが不足しているため、最近のテキストと 3D の生成作業は、主に 3D データを合成するための 2D 拡散モデルの利用に依存しています。
拡散ベースの手法は通常、トレーニングと推論の両方にかなりの最適化時間を必要とするため、高速 3D 生成には GAN ベースのモデルの使用が依然として望ましいと考えられます。
この研究では、高速なテキストから 3D への生成のためのエンドツーエンドのトレーニング可能な GAN ベースの深層学習モデルである、テキストガイド付き 3D 生成 (TPA3D) 用の Triplane アテンションを提案します。
トレーニング中に観察される 3D 形状データとそのレンダリングされた 2D 画像のみを使用して、TPA3D は、対応する 3D メッシュ データを合成するための詳細な視覚的説明を取得するように設計されています。
これは、抽出された文および単語レベルのテキスト特徴に対して提案されたアテンション メカニズムによって実現されます。
私たちの実験では、TPA3D がきめ細かい記述に合わせて高品質の 3D テクスチャ形状を生成し、驚くべき計算効率が観察されることを示しました。
要約(オリジナル)
Due to the lack of large-scale text-3D correspondence data, recent text-to-3D generation works mainly rely on utilizing 2D diffusion models for synthesizing 3D data. Since diffusion-based methods typically require significant optimization time for both training and inference, the use of GAN-based models would still be desirable for fast 3D generation. In this work, we propose Triplane Attention for text-guided 3D generation (TPA3D), an end-to-end trainable GAN-based deep learning model for fast text-to-3D generation. With only 3D shape data and their rendered 2D images observed during training, our TPA3D is designed to retrieve detailed visual descriptions for synthesizing the corresponding 3D mesh data. This is achieved by the proposed attention mechanisms on the extracted sentence and word-level text features. In our experiments, we show that TPA3D generates high-quality 3D textured shapes aligned with fine-grained descriptions, while impressive computation efficiency can be observed.
arxiv情報
著者 | Bin-Shih Wu,Hong-En Chen,Sheng-Yu Huang,Yu-Chiang Frank Wang |
発行日 | 2024-08-08 16:47:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google