Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

要約

自然言語で説明されているオブジェクトを見つけることは、自律剤にとって重要な課題です。
既存のクリップベースのオープンボキャブラリーメソッドは、単純な(裸の)クエリで3Dオブジェクトの接地を正常に実行しますが、オブジェクト関係の理解を要求する曖昧な説明に対処することはできません。
この問題に取り組むために、メトリックおよびセマンティックの空間エッジを使用して3Dシーングラフ表現を構築し、控除シーンの推論アルゴリズムを通じて人間からエージェントのインターフェイスとして大規模な言語モデルを使用するBBQ(ベアクエリを超えて)と呼ばれるモジュールアプローチを提案します。
BBQは、3Dオブジェクト中心のマップと、グラフノードとして記述する2Dビジョン言語モデルを備えた高度なレイキャスティングアルゴリズムを構築するために、堅牢な恐竜駆動の関連付けを採用しています。
レプリカとスキャンテットのデータセットでは、BBQが他のゼロショット方法と比較して、オープンボキャブラリー3Dセマンティックセグメンテーションで主要な位置を占めることを実証しました。
また、空間関係を活用することは、同じセマンティッククラスの複数のエンティティを含むシーンに特に効果的であることを示しています。
SR3D+、NR3D、およびScanreferベンチマークに挑戦すると、私たちの演ductive的なアプローチは、他の最先端の方法と比較して複雑なクエリによるオブジェクトの接地を可能にする大幅な改善を示しています。
設計の選択肢とソフトウェアの実装の組み合わせにより、ロボットオンボードコンピューターでの実験において重要なデータ処理速度が得られました。
この有望なパフォーマンスにより、インテリジェントロボットプロジェクトでのアプローチの適用が可能になります。
コードをhttps://linukc.github.io/beyondbarequeries/で公開しました。

要約(オリジナル)

Locating objects described in natural language presents a significant challenge for autonomous agents. Existing CLIP-based open-vocabulary methods successfully perform 3D object grounding with simple (bare) queries, but cannot cope with ambiguous descriptions that demand an understanding of object relations. To tackle this problem, we propose a modular approach called BBQ (Beyond Bare Queries), which constructs 3D scene graph representation with metric and semantic spatial edges and utilizes a large language model as a human-to-agent interface through our deductive scene reasoning algorithm. BBQ employs robust DINO-powered associations to construct 3D object-centric map and an advanced raycasting algorithm with a 2D vision-language model to describe them as graph nodes. On the Replica and ScanNet datasets, we have demonstrated that BBQ takes a leading place in open-vocabulary 3D semantic segmentation compared to other zero-shot methods. Also, we show that leveraging spatial relations is especially effective for scenes containing multiple entities of the same semantic class. On challenging Sr3D+, Nr3D and ScanRefer benchmarks, our deductive approach demonstrates a significant improvement, enabling objects grounding by complex queries compared to other state-of-the-art methods. The combination of our design choices and software implementation has resulted in significant data processing speed in experiments on the robot on-board computer. This promising performance enables the application of our approach in intelligent robotics projects. We made the code publicly available at https://linukc.github.io/BeyondBareQueries/.

arxiv情報

著者 Sergey Linok,Tatiana Zemskova,Svetlana Ladanova,Roman Titkov,Dmitry Yudin,Maxim Monastyrny,Aleksei Valenkov
発行日 2025-05-06 14:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク