Semantic Mechanical Search with Large Vision and Language Models

要約

完全に遮蔽されたターゲット オブジェクトを見つけるためにオブジェクトを移動することは、機械的探索として知られており、ロボット工学における困難な問題です。
オブジェクトは多くの場合、意味論的に編成されているため、オブジェクトの関係に関する意味論的な情報により、機械的な検索が容易になり、検索時間が短縮されると推測されます。
大規模な事前トレーニング済み視覚モデルおよび言語モデル (VLM および LLM) は、珍しい物体やこれまで見たことのない現実世界の環境に一般化できる可能性を示しています。
この研究では、Semantic Mechanical Search (SMS) と呼ばれる新しいフレームワークを提案します。
SMS はシーンの理解を実行し、LLM を使用してセマンティックな占有分布を明示的に生成します。
CLIP 埋め込みによって提供される視覚的な類似性に依存する方法と比較して、SMS は LLM の深い推論機能を活用します。
VLM および LLM をエンドツーエンド プランナーとして使用する従来の研究では、専用の幾何学プランナーとうまく統合できない可能性がありますが、SMS は、下流の操作またはナビゲーション ポリシーのプラグイン セマンティック モジュールとして機能します。
棚などの閉じた世界の設定での機械的検索については、幾何学ベースのプランナーと比較し、SMS によって機械的検索のパフォーマンスがシミュレーションで薬局、キッチン、オフィスのドメイン全体で 24%、物理実験で 47.1% 向上することを示しました。
オープンワールドの実環境では、SMS は CLIP ベースの方法と比較してより優れたセマンティック分散を生成でき、ダウンストリーム ナビゲーション ポリシーと統合してオブジェクト ナビゲーション タスクを改善できる可能性があります。
コード、データ、ビデオ、付録は、https://sites.google.com/view/semantic-mechanical-search から入手できます。

要約(オリジナル)

Moving objects to find a fully-occluded target object, known as mechanical search, is a challenging problem in robotics. As objects are often organized semantically, we conjecture that semantic information about object relationships can facilitate mechanical search and reduce search time. Large pretrained vision and language models (VLMs and LLMs) have shown promise in generalizing to uncommon objects and previously unseen real-world environments. In this work, we propose a novel framework called Semantic Mechanical Search (SMS). SMS conducts scene understanding and generates a semantic occupancy distribution explicitly using LLMs. Compared to methods that rely on visual similarities offered by CLIP embeddings, SMS leverages the deep reasoning capabilities of LLMs. Unlike prior work that uses VLMs and LLMs as end-to-end planners, which may not integrate well with specialized geometric planners, SMS can serve as a plug-in semantic module for downstream manipulation or navigation policies. For mechanical search in closed-world settings such as shelves, we compare with a geometric-based planner and show that SMS improves mechanical search performance by 24% across the pharmacy, kitchen, and office domains in simulation and 47.1% in physical experiments. For open-world real environments, SMS can produce better semantic distributions compared to CLIP-based methods, with the potential to be integrated with downstream navigation policies to improve object navigation tasks. Code, data, videos, and the appendix are available: https://sites.google.com/view/semantic-mechanical-search

arxiv情報

著者 Satvik Sharma,Huang Huang,Kaushik Shivakumar,Lawrence Yunliang Chen,Ryan Hoque,Brian Ichter,Ken Goldberg
発行日 2023-10-30 20:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク