DeMoBot: Deformable Mobile Manipulation with Vision-based Sub-goal Retrieval


模倣学習 (IL) アルゴリズムは通常、経験を抽出してパラメトリックな行動ポリシーを作成し、専門家のデモンストレーションを模倣します。
この論文では、デモンストレーションから観察結果を直接取得して、\textbf{De}形成可能な \textbf{Mo} 胆汁操作タスクでロボットをガイドする新しい IL アプローチである \textbf{DeMoBot} を紹介します。
DeMoBot は、ビジョン基盤モデルを利用して、視覚的な類似性に基づいて関連する専門家データを特定し、軌道の類似性と前方到達可能性の制約を使用して現在の軌道を実証された軌道と照合して、適切なサブ目標を選択します。
私たちは、いくつかのシミュレートされた現実世界の設定で Spot ロボットを使用して DeMoBot を評価し、その有効性と汎用性を実証しました。
わずか 20 回のデモン​​ストレーションで、DeMoBot はベースラインを大幅に上回り、シミュレーションでカーテンを開ける成功率 50%、隙間カバーの成功率 85% に達しました。


Imitation learning (IL) algorithms typically distill experience into parametric behavior policies to mimic expert demonstrations. Despite their effectiveness, previous methods often struggle with data efficiency and accurately aligning the current state with expert demonstrations, especially in deformable mobile manipulation tasks characterized by partial observations and dynamic object deformations. In this paper, we introduce \textbf{DeMoBot}, a novel IL approach that directly retrieves observations from demonstrations to guide robots in \textbf{De}formable \textbf{Mo}bile manipulation tasks. DeMoBot utilizes vision foundation models to identify relevant expert data based on visual similarity and matches the current trajectory with demonstrated trajectories using trajectory similarity and forward reachability constraints to select suitable sub-goals. Once a goal is determined, a motion generation policy will guide the robot to the next state until the task is completed. We evaluated DeMoBot using a Spot robot in several simulated and real-world settings, demonstrating its effectiveness and generalizability. With only 20 demonstrations, DeMoBot significantly outperforms the baselines, reaching a 50\% success rate in curtain opening and 85\% in gap covering in simulation.


著者 Yuying Zhang,Wenyan Yang,Joni Pajarinen
発行日 2024-08-28 16:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク