Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

要約

自然言語で記述されたオブジェクトの位置を特定することは、自律エージェントにとって大きな課題となります。
既存の CLIP ベースのオープンボキャブラリー手法は、単純な (ベア) クエリで 3D オブジェクトの基礎付けを実行できますが、オブジェクトの関係の理解を必要とするあいまいな記述には対処できません。
この問題に取り組むために、私たちは BBQ (Beyond Bare Queries) と呼ばれるモジュール式アプローチを提案します。これは、メトリック エッジとセマンティック エッジを使用して 3D シーン グラフ表現を構築し、演繹的シーン推論アルゴリズムを通じて人間とエージェントのインターフェイスとして大規模な言語モデルを利用します。
BBQ は、DINO を活用した堅牢な関連付けを採用して、3D オブジェクト中心のマップと、2D ビジョン言語モデルを使用した高度なレイキャスティング アルゴリズムを構築して、それらをグラフ ノードとして記述します。
Replica と ScanNet データセットでは、BBQ が他のゼロショット手法と比較して、オープンボキャブラリー 3D セマンティック セグメンテーションにおいて主導的な位置を占めていることを実証しました。
また、空間関係の活用は、同じ意味クラスの複数のエンティティを含むシーンで特に効果的であることを示します。
Sr3D+、Nr3D、および ScanRefer の難しいベンチマークでは、当社の演繹的アプローチは大幅な改善を示し、他の最先端の方法と比較して複雑なクエリによるオブジェクトのグラウンディングを可能にします。
私たちの設計上の選択とソフトウェア実装の組み合わせにより、ロボット搭載コンピューターでの実験におけるデータ処理速度が大幅に向上しました。
この有望なパフォーマンスにより、インテリジェント ロボティクス プロジェクトにおける当社のアプローチの適用が可能になります。
コードは https://linukc.github.io/BeyondBareQueries/ で公開しました。

要約(オリジナル)

Locating objects described in natural language presents a significant challenge for autonomous agents. Existing CLIP-based open-vocabulary methods successfully perform 3D object grounding with simple (bare) queries, but cannot cope with ambiguous descriptions that demand an understanding of object relations. To tackle this problem, we propose a modular approach called BBQ (Beyond Bare Queries), which constructs 3D scene graph representation with metric and semantic edges and utilizes a large language model as a human-to-agent interface through our deductive scene reasoning algorithm. BBQ employs robust DINO-powered associations to construct 3D object-centric map and an advanced raycasting algorithm with a 2D vision-language model to describe them as graph nodes. On the Replica and ScanNet datasets, we have demonstrated that BBQ takes a leading place in open-vocabulary 3D semantic segmentation compared to other zero-shot methods. Also, we show that leveraging spatial relations is especially effective for scenes containing multiple entities of the same semantic class. On challenging Sr3D+, Nr3D and ScanRefer benchmarks, our deductive approach demonstrates a significant improvement, enabling objects grounding by complex queries compared to other state-of-the-art methods. The combination of our design choices and software implementation has resulted in significant data processing speed in experiments on the robot on-board computer. This promising performance enables the application of our approach in intelligent robotics projects. We made the code publicly available at https://linukc.github.io/BeyondBareQueries/.

arxiv情報

著者 Sergey Linok,Tatiana Zemskova,Svetlana Ladanova,Roman Titkov,Dmitry Yudin,Maxim Monastyrny,Aleksei Valenkov
発行日 2024-09-16 15:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク