DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

要約

自然言語の説明を考慮して、ロボットがあらゆる環境でタスクを実行するための目標は、目標があることです。
ただし、現在のシステムのほとんどは、静的環境を想定しており、人間の介入またはロボット自身の行動により環境が頻繁に変化する実際のシナリオでのシステムの適用性を制限します。
この作業では、ダイナミムを提示します。これは、ダイナミックなモバイル操作への新しいアプローチであり、ダイナミックスパチオセマンティックメモリを使用してロボットの環境を表現しています。
Dynamemは、ポイントクラウドの動的メモリを維持するために3Dデータ構造を構築し、マルチモーダルLLMSまたは最先端のビジョン言語モデルによって生成されたオープンボキャブラリー機能を使用して、オープンボキャブラリーオブジェクトのローカリゼーションクエリに答えます。
Dynamemを搭載したロボットは、新しい環境を探索し、メモリに含まれていないオブジェクトを検索し、シーン内でオブジェクトが移動、表示、または消えるようにメモリを継続的に更新できます。
3つの実際のシーンと9つのオフラインシーンでSTRETTY SE3ロボットで広範な実験を実行し、非定常オブジェクトで平均ピックアンドドロップ成功率70%を達成します。これは、最先端の静的システムよりも2倍以上の改善です。
私たちのコードと実験および展開ビデオはオープンソースであり、プロジェクトWebサイトhttps://dynamem.github.io/にあります。

要約(オリジナル)

Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system’s applicability in real-world scenarios where environments frequently change due to human intervention or the robot’s own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot’s environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/

arxiv情報

著者 Peiqi Liu,Zhanqiu Guo,Mohit Warke,Soumith Chintala,Chris Paxton,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2025-05-29 13:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク