要約
具体化されたインテリジェンスでは、エージェントが言語の指示に基づいて3D環境とリアルタイムでやり取りする必要があります。
このドメインの基本的なタスクは、エゴ中心の3D視覚接地です。
ただし、RGB-D画像からレンダリングされたポイントクラウドは、大量の冗長な背景データと固有のノイズを保持します。どちらもターゲット領域のマニホールド構造を妨げる可能性があります。
既存のポイントクラウド強化方法は、多くの場合、マニホールドを改善するために退屈なプロセスを必要としますが、これはリアルタイムのタスクには適していません。
マルチモーダルタスクに適したプロキシ変換を提案して、ポイントクラウドマニホールドを効率的に改善します。
私たちの方法は、最初に変形可能なポイントクラスタリングを活用して、ターゲット領域のポイントクラウドサブマニホールドを識別します。
次に、マルチモーダルプロキシを利用してポイントクラウド変換をガイドするプロキシ注意モジュールを提案します。
プロキシの注意に基づいて構築されたサブマニホールド変換生成モジュールを設計します。ここでは、テキスト情報がグローバルに異なるサブマニホールドの翻訳ベクトルを導き、ターゲット領域の相対的な空間的関係を最適化します。
同時に、画像情報は各サブマニホールド内の線形変換をガイドし、ターゲット領域のローカルポイントクラウドマニホールドを改良します。
広範な実験は、プロキシ変換が既存のすべての方法を大幅に上回り、簡単なターゲットで7.49%、ハードターゲットで4.60%の印象的な改善を達成し、注意ブロックの計算オーバーヘッドを40.6%削減することを示しています。
これらの結果は、私たちのアプローチの有効性と堅牢性を示し、自我中心の3D視覚接地に新しいソタを確立します。
要約(オリジナル)
Embodied intelligence requires agents to interact with 3D environments in real time based on language instructions. A foundational task in this domain is ego-centric 3D visual grounding. However, the point clouds rendered from RGB-D images retain a large amount of redundant background data and inherent noise, both of which can interfere with the manifold structure of the target regions. Existing point cloud enhancement methods often require a tedious process to improve the manifold, which is not suitable for real-time tasks. We propose Proxy Transformation suitable for multimodal task to efficiently improve the point cloud manifold. Our method first leverages Deformable Point Clustering to identify the point cloud sub-manifolds in target regions. Then, we propose a Proxy Attention module that utilizes multimodal proxies to guide point cloud transformation. Built upon Proxy Attention, we design a submanifold transformation generation module where textual information globally guides translation vectors for different submanifolds, optimizing relative spatial relationships of target regions. Simultaneously, image information guides linear transformations within each submanifold, refining the local point cloud manifold of target regions. Extensive experiments demonstrate that Proxy Transformation significantly outperforms all existing methods, achieving an impressive improvement of 7.49% on easy targets and 4.60% on hard targets, while reducing the computational overhead of attention blocks by 40.6%. These results establish a new SOTA in ego-centric 3D visual grounding, showcasing the effectiveness and robustness of our approach.
arxiv情報
著者 | Qihang Peng,Henry Zheng,Gao Huang |
発行日 | 2025-02-26 15:53:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google