MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation

要約

モバイル操作では、ナビゲーションと操作はしばしば別々の問題として扱われ、その結果、単にオブジェクトに近づくことと効果的に関与することとの間に大きなギャップが生じます。
多くのナビゲーションアプローチは、主にターゲットに近接して成功を定義し、しばしばその後の操作を促進する最適な位置決めの必要性を見落としています。
これに対処するために、操作へのシームレスな移行のために最適な最終ナビゲーション位置を学習するためのモデルのトレーニングデータを提供する100,000以上のサンプルを含むベンチマークデータセットであるMoMa-Kitchenを紹介します。
私たちのデータセットには、さまざまなキッチン環境から収集されたアフォーデンスグラウンドのフロアラベルが含まれています。ここでは、さまざまなモデルのロボットモバイルマニピュレーターが散らかった際のターゲットオブジェクトを把握しようとします。
完全に自動化されたパイプラインを使用して、多様な現実世界のシナリオをシミュレートし、最適な操作位置のためにアフォーダンスラベルを生成します。
視覚データは、ロボットアームに取り付けられた一人称ビューカメラによってキャプチャされたRGB-D入力から収集され、データ収集中の視点の一貫性を確保します。
また、MoMa-Kitchenベンチマークで有望なパフォーマンスを示すナビゲーションアフォーダンスの接地のために、軽量のベースラインモデルであるNavaffを開発します。
私たちのアプローチにより、モデルは、さまざまなアームタイプとプラットフォームの高さに対応するアフォーダンスベースの最終的な位置付けを学ぶことができ、それにより、具体化されたAIにおけるナビゲーションと操作のより堅牢で一般化可能な統合の道を開いています。
プロジェクトページ:\ href {https://momakitchen.github.io/} {https://momakitchen.github.io/}。

要約(オリジナル)

In mobile manipulation, navigation and manipulation are often treated as separate problems, resulting in a significant gap between merely approaching an object and engaging with it effectively. Many navigation approaches primarily define success by proximity to the target, often overlooking the necessity for optimal positioning that facilitates subsequent manipulation. To address this, we introduce MoMa-Kitchen, a benchmark dataset comprising over 100k samples that provide training data for models to learn optimal final navigation positions for seamless transition to manipulation. Our dataset includes affordance-grounded floor labels collected from diverse kitchen environments, in which robotic mobile manipulators of different models attempt to grasp target objects amidst clutter. Using a fully automated pipeline, we simulate diverse real-world scenarios and generate affordance labels for optimal manipulation positions. Visual data are collected from RGB-D inputs captured by a first-person view camera mounted on the robotic arm, ensuring consistency in viewpoint during data collection. We also develop a lightweight baseline model, NavAff, for navigation affordance grounding that demonstrates promising performance on the MoMa-Kitchen benchmark. Our approach enables models to learn affordance-based final positioning that accommodates different arm types and platform heights, thereby paving the way for more robust and generalizable integration of navigation and manipulation in embodied AI. Project page: \href{https://momakitchen.github.io/}{https://momakitchen.github.io/}.

arxiv情報

著者 Pingrui Zhang,Xianqiang Gao,Yuhan Wu,Kehui Liu,Dong Wang,Zhigang Wang,Bin Zhao,Yan Ding,Xuelong Li
発行日 2025-03-14 04:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク