DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

要約

オープンボキャブラリーのモバイル操作は大幅に進歩しており、その目標は、自然言語の記述が与えられた任意の環境でロボットがタスクを実行できるようにすることです。
ただし、現在のシステムのほとんどは静的な環境を前提としているため、人間の介入やロボット自身の動作によって環境が頻繁に変化する現実のシナリオでは、システムの適用性が制限されます。
この研究では、動的空間意味記憶を使用してロボットの環境を表現する、オープンワールドのモバイル操作への新しいアプローチである DynaMem を紹介します。
DynaMem は、点群の動的メモリを維持するために 3D データ構造を構築し、マルチモーダル LLM または最先端のビジョン言語モデルによって生成されたオープン語彙機能を使用して、オープン語彙のオブジェクト位置特定クエリに答えます。
DynaMem を活用した当社のロボットは、新しい環境を探索し、メモリ内に見つからないオブジェクトを検索し、シーン内でオブジェクトが移動、出現、または消滅するにつれてメモリを継続的に更新できます。
私たちは、Stretch SE3 ロボットの 3 つの現実シーンと 9 つのオフライン シーンで広範な実験を実行し、非静止物体でのピック アンド ドロップの平均成功率 70% を達成しました。これは、現状の 2 倍以上の向上です。
-アート静的システム。
私たちのコード、実験およびデプロイのビデオはオープンソースであり、プロジェクト Web サイト (https://dynamem.github.io/) でご覧いただけます。

要約(オリジナル)

Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system’s applicability in real-world scenarios where environments frequently change due to human intervention or the robot’s own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot’s environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/

arxiv情報

著者 Peiqi Liu,Zhanqiu Guo,Mohit Warke,Soumith Chintala,Chris Paxton,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2024-11-07 18:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク