VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding

要約

3D の視覚的基盤はロボットにとって極めて重要であり、自然言語と 3D シーンの理解の統合が必要です。
3D 点群を使用した教師あり学習に依存する従来の方法は、データセットが不足しているため制限があります。
最近、データの問題に対処するために、LLM を活用したゼロショット手法が提案されています。
これらの方法は効果的ではありますが、オブジェクト中心の情報のみを使用するため、複雑なクエリを処理する能力が制限されます。
この研究では、2D 画像のみに基づいたゼロショット 3D 視覚グラウンディングのためのビジョン言語モデル (VLM) を使用する新しいフレームワークである VLM-Grounder を紹介します。
VLM-Grounder は、画像シーケンスを動的につなぎ合わせ、グラウンディングおよびフィードバック スキームを使用してターゲット オブジェクトを見つけ、マルチビュー アンサンブル投影を使用して 3D 境界ボックスを正確に推定します。
ScanRefer と Nr3D データセットの実験では、VLM-Grounder が以前のゼロショット手法を上回り、3D ジオメトリやオブジェクト事前分布に依存せずに、ScanRefer で 51.6% Acc@0.25、Nr3D で 48.0% Acc を達成したことが示されました。
コードは https://github.com/OpenRobotLab/VLM-Grounder で入手できます。

要約(オリジナル)

3D visual grounding is crucial for robots, requiring integration of natural language and 3D scene understanding. Traditional methods depending on supervised learning with 3D point clouds are limited by scarce datasets. Recently zero-shot methods leveraging LLMs have been proposed to address the data issue. While effective, these methods only use object-centric information, limiting their ability to handle complex queries. In this work, we present VLM-Grounder, a novel framework using vision-language models (VLMs) for zero-shot 3D visual grounding based solely on 2D images. VLM-Grounder dynamically stitches image sequences, employs a grounding and feedback scheme to find the target object, and uses a multi-view ensemble projection to accurately estimate 3D bounding boxes. Experiments on ScanRefer and Nr3D datasets show VLM-Grounder outperforms previous zero-shot methods, achieving 51.6% Acc@0.25 on ScanRefer and 48.0% Acc on Nr3D, without relying on 3D geometry or object priors. Codes are available at https://github.com/OpenRobotLab/VLM-Grounder .

arxiv情報

著者 Runsen Xu,Zhiwei Huang,Tai Wang,Yilun Chen,Jiangmiao Pang,Dahua Lin
発行日 2024-10-17 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク