DOrA: 3D Visual Grounding with Order-Aware Referring

要約

3D ビジュアル グラウンディングは、自然言語記述によって参照される 3D 点群シーン内のターゲット オブジェクトを識別することを目的としています。
これまでの研究では、提案されたクロスモーダル変換器を使用して言語と視覚の関係を利用しようとしましたが、構造化されていない自然な発話や散乱したオブジェクトにより、望ましくないパフォーマンスが発生する可能性があります。
この論文では、Order-Aware を参照した新しい 3D ビジュアル グラウンディング フレームワークである DOrA を紹介します。
DOrA は、大規模言語モデル (LLM) を利用して言語記述を解析し、アンカー オブジェクトの参照順序を示唆するように設計されています。
このように順序付けられたアンカー オブジェクトにより、DOrA は視覚的特徴を更新し、接地プロセス中にターゲット オブジェクトの位置を特定できるようになります。
NR3D および ScanRefer データセットの実験結果は、低リソース シナリオとフルデータ シナリオの両方における当社の優位性を示しています。
特に、DOrA は、1% データ設定および 10% データ設定のもとで、現在の最先端のフレームワークをそれぞれ 9.3% および 7.8% 上回る接地精度を実現します。

要約(オリジナル)

3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. While previous works attempt to exploit the verbo-visual relation with proposed cross-modal transformers, unstructured natural utterances and scattered objects might lead to undesirable performances. In this paper, we introduce DOrA, a novel 3D visual grounding framework with Order-Aware referring. DOrA is designed to leverage Large Language Models (LLMs) to parse language description, suggesting a referential order of anchor objects. Such ordered anchor objects allow DOrA to update visual features and locate the target object during the grounding process. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in both low-resource and full-data scenarios. In particular, DOrA surpasses current state-of-the-art frameworks by 9.3% and 7.8% grounding accuracy under 1% data and 10% data settings, respectively.

arxiv情報

著者 Tung-Yu Wu,Sheng-Yu Huang,Yu-Chiang Frank Wang
発行日 2024-03-25 08:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク