要約
クロスモーダル3D検索タスクは、テキストの説明と3D形状の間の相互マッチングを達成することを目的としています。
これは、特にロボット工学と具体化された人工知能(AI)アプリケーションの領域内で、自然言語と3D環境の間の相互作用を強化する可能性があります。
ただし、3Dデータの希少性と費用は、既存のクロスモーダル3D検索方法のパフォーマンスを制約します。
これらの方法は、限られた数の3D形状から派生した機能に大きく依存しており、その結果、多様なシナリオ全体で一般化能力が低下します。
この課題に対処するために、クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ増強方法であるSCA3Dを紹介します。
私たちのアプローチでは、LLAVAモデルを使用してコンポーネントライブラリを作成し、データセット内のすべての3D形状の各セグメント化された部分にキャプションを付けます。
特に、新しいセマンティック機能を含む広範な新しい3Dテキストペアの生成を促進します。
インター距離と内部の両方の距離を使用して、さまざまなコンポーネントを新しい3D形状に揃えて、コンポーネントが重複せず、密接に適合していることを確認します。
さらに、テキストテンプレートを使用して、各コンポーネントのキャプションを処理し、新しいテキストの説明を生成します。
また、Unimodalエンコーダーを使用して、濃縮データセットに基づいて3D形状とテキストの埋め込みを抽出します。
次に、Earth Moverの距離(EMD)を使用して細粒のクロスモーダル類似性を計算し、対照学習とクロスモーダルマッチングを強化し、テキストと3D形状の間の双方向の検索を可能にします。
広範な実験では、SCA3DがText2shape Datasetで以前の作業を上回ることを示しており、20.03から27.22に形状からテキストのRR@1スコア、および13.12から16.67のテキストツーシェイプRR@1スコアを上げます。
コードはhttps://github.com/3dagentworld/sca3dにあります。
要約(オリジナル)
The cross-modal 3D retrieval task aims to achieve mutual matching between text descriptions and 3D shapes. This has the potential to enhance the interaction between natural language and the 3D environment, especially within the realms of robotics and embodied artificial intelligence (AI) applications. However, the scarcity and expensiveness of 3D data constrain the performance of existing cross-modal 3D retrieval methods. These methods heavily rely on features derived from the limited number of 3D shapes, resulting in poor generalization ability across diverse scenarios. To address this challenge, we introduce SCA3D, a novel 3D shape and caption online data augmentation method for cross-modal 3D retrieval. Our approach uses the LLaVA model to create a component library, captioning each segmented part of every 3D shape within the dataset. Notably, it facilitates the generation of extensive new 3D-text pairs containing new semantic features. We employ both inter and intra distances to align various components into a new 3D shape, ensuring that the components do not overlap and are closely fitted. Further, text templates are utilized to process the captions of each component and generate new text descriptions. Besides, we use unimodal encoders to extract embeddings for 3D shapes and texts based on the enriched dataset. We then calculate fine-grained cross-modal similarity using Earth Mover’s Distance (EMD) and enhance cross-modal matching with contrastive learning, enabling bidirectional retrieval between texts and 3D shapes. Extensive experiments show our SCA3D outperforms previous works on the Text2Shape dataset, raising the Shape-to-Text RR@1 score from 20.03 to 27.22 and the Text-to-Shape RR@1 score from 13.12 to 16.67. Codes can be found in https://github.com/3DAgentWorld/SCA3D.
arxiv情報
著者 | Junlong Ren,Hao Wu,Hui Xiong,Hao Wang |
発行日 | 2025-02-26 13:36:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google