HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation

要約

最近の CLIP ガイドによる 3D 生成方法は有望な結果を達成していますが、テキストと画像の埋め込みの間にギャップがあるため、入力テキストに適合する忠実な 3D 形状を生成するのに苦労しています。
この目的を達成するために、この論文では、球面最適トランスポート (SOT) を使用してテキスト特徴を画像特徴に位置合わせすることで、このギャップを効果的に埋める最初の試みを行う HOTS3D を提案します。
ただし、高次元の状況では、SOT を解決することは依然として課題です。
2 つのモダリティの CLIP エンコーディングから得られた高次元特徴の SOT マップを取得するために、Villani の定理に基づいて解を数学的に定式化して導き出します。これにより、多様体指数マップを使用せずに 2 つの超球分布を直接位置合わせできます。
さらに、最適なカントロビッチ ポテンシャルを得るために、入力凸型ニューラル ネットワーク (ICNN) を活用してこれを実装します。
最適にマッピングされた特徴を使用して、拡散ベースのジェネレーターと Nerf ベースのデコーダーを使用して、特徴を 3D 形状に変換します。
最先端技術との広範な定性的比較により、特にテキスト セマンティクスとの一貫性において、提案された HOTS3D の 3D 形状生成における優位性が実証されています。

要約(オリジナル)

Recent CLIP-guided 3D generation methods have achieved promising results but struggle with generating faithful 3D shapes that conform with input text due to the gap between text and image embeddings. To this end, this paper proposes HOTS3D which makes the first attempt to effectively bridge this gap by aligning text features to the image features with spherical optimal transport (SOT). However, in high-dimensional situations, solving the SOT remains a challenge. To obtain the SOT map for high-dimensional features obtained from CLIP encoding of two modalities, we mathematically formulate and derive the solution based on Villani’s theorem, which can directly align two hyper-sphere distributions without manifold exponential maps. Furthermore, we implement it by leveraging input convex neural networks (ICNNs) for the optimal Kantorovich potential. With the optimally mapped features, a diffusion-based generator and a Nerf-based decoder are subsequently utilized to transform them into 3D shapes. Extensive qualitative and qualitative comparisons with state-of-the-arts demonstrate the superiority of the proposed HOTS3D for 3D shape generation, especially on the consistency with text semantics.

arxiv情報

著者 Zezeng Li,Weimin Wang,WenHai Li,Na Lei,Xianfeng Gu
発行日 2024-07-19 15:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク