Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation

要約

テキスト プロンプトから高密度のマルチビュー イメージを生成することは、忠実度の高い 3D アセットを作成するために重要です。
それにもかかわらず、既存の方法は空間とビューの対応に苦労しており、その結果、出力がまばらで低品質になります。
この論文では、Text-to-3D 用の新しい一貫した高密度マルチビュー Text-to-Image Generator である CoSER を紹介します。CoSER は、隣接ビューのコヒーレンスを注意深く学習し、すべてのビューの迅速な走査を通じて曖昧さをさらに軽減することで、効率と品質の両方を達成します。
隣接ビューの一貫性を実現するために、各視点は隣接する視点と密に相互作用して全体的な空間構造を認識し、物理原理によって明示的に定義されたモーション パスに沿って情報を集約して詳細を調整します。
ビュー間の一貫性をさらに強化し、コンテンツのドリフトを軽減するために、CoSER はスパイラル双方向方式ですべてのビューを迅速にスキャンして全体的な情報を認識し、セマンティック マテリアルに基づいて各ポイントをスコア付けします。
続いて、スコアに基づいて空間次元に沿って重み付きダウンサンプリングを実行することで、軽量な計算ですべてのビューにわたる顕著な情報の融合が容易になります。
技術的には、コア モジュールは、アテンション メカニズムと選択的状態空間モデルを統合することによって構築され、前者の堅牢な学習機能と後者の低いオーバーヘッドを活用します。
広範な評価により、CoSER は、さまざまな 3D 生成モデルに柔軟に統合できる、高密度で忠実度が高く、内容に一貫性のあるマルチビュー画像を生成できることがわかりました。

要約(オリジナル)

Generating dense multiview images from text prompts is crucial for creating high-fidelity 3D assets. Nevertheless, existing methods struggle with space-view correspondences, resulting in sparse and low-quality outputs. In this paper, we introduce CoSER, a novel consistent dense Multiview Text-to-Image Generator for Text-to-3D, achieving both efficiency and quality by meticulously learning neighbor-view coherence and further alleviating ambiguity through the swift traversal of all views. For achieving neighbor-view consistency, each viewpoint densely interacts with adjacent viewpoints to perceive the global spatial structure, and aggregates information along motion paths explicitly defined by physical principles to refine details. To further enhance cross-view consistency and alleviate content drift, CoSER rapidly scan all views in spiral bidirectional manner to aware holistic information and then scores each point based on semantic material. Subsequently, we conduct weighted down-sampling along the spatial dimension based on scores, thereby facilitating prominent information fusion across all views with lightweight computation. Technically, the core module is built by integrating the attention mechanism with a selective state space model, exploiting the robust learning capabilities of the former and the low overhead of the latter. Extensive evaluation shows that CoSER is capable of producing dense, high-fidelity, content-consistent multiview images that can be flexibly integrated into various 3D generation models.

arxiv情報

著者 Bonan Li,Zicheng Zhang,Xingyi Yang,Xinchao Wang
発行日 2024-08-23 15:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク