PD-TPE: Parallel Decoder with Text-guided Position Encoding for 3D Visual Grounding

要約

3D ビジュアル グラウンディングは、3D 点群シーンにおける自由形式の自然言語記述によって言及されるターゲット オブジェクトを特定することを目的としています。
これまでの研究のほとんどでは、エンコーダとデコーダが、モダリティ全体でターゲット オブジェクトの属性情報と周囲の環境との関係情報を同時に調整する必要がありました。
これにより、クエリの注意が分散され、入力言語の説明とは無関係な点に過度に焦点が当てられる可能性があります。
これらの問題を軽減するために、二重分岐デコーダを備えた視覚言語モデル PD-TPE を提案します。
2 つのブランチは、提案特徴のデコードと周囲のレイアウト認識を並行して実行します。
それらのアテンション マップは相互に影響を受けないため、クエリは各ブランチの特定の目的に関連するトークンに焦点を当てます。
特に、2 つのブランチ間で異なる、新しいテキストガイド付き位置エンコーディング方法を設計します。
メイン ブランチでは、アプリオリはトークンと予測された 3D ボックスの間の相対位置に依存しており、オブジェクトの近くのトークンにより多くの注意を払うようにモデルに指示します。
周囲のブランチでは、ビジュアル機能とテキスト機能の類似性に基づいてクエリが実行され、効果的なレイアウト情報を提供できるトークンが使用されます。
広範な実験により、広く採用されている 2 つの 3D ビジュアル グラウンディング データセット、ScanRefer と NR3D の最先端技術をそれぞれ 1.8% と 2.2% 上回っていることが実証されました。
コードは公開されます。

要約(オリジナル)

3D visual grounding aims to locate the target object mentioned by free-formed natural language descriptions in 3D point cloud scenes. Most previous work requires the encoder-decoder to simultaneously align the attribute information of the target object and its relational information with the surrounding environment across modalities. This causes the queries’ attention to be dispersed, potentially leading to an excessive focus on points irrelevant to the input language descriptions. To alleviate these issues, we propose PD-TPE, a visual-language model with a double-branch decoder. The two branches perform proposal feature decoding and surrounding layout awareness in parallel. Since their attention maps are not influenced by each other, the queries focus on tokens relevant to each branch’s specific objective. In particular, we design a novel Text-guided Position Encoding method, which differs between the two branches. In the main branch, the priori relies on the relative positions between tokens and predicted 3D boxes, which direct the model to pay more attention to tokens near the object; in the surrounding branch, it is guided by the similarity between visual and text features, so that the queries attend to tokens that can provide effective layout information. Extensive experiments demonstrate that we surpass the state-of-the-art on two widely adopted 3D visual grounding datasets, ScanRefer and NR3D, by 1.8% and 2.2%, respectively. Codes will be made publicly available.

arxiv情報

著者 Chenshu Hou,Liang Peng,Xiaopei Wu,Wenxiao Wang,Xiaofei He
発行日 2024-07-19 17:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク