Local Policies Enable Zero-shot Long-horizon Manipulation

要約

ロボット操作用の Sim2real は、複雑な接触をシミュレートし、現実的なタスク分布を生成するという課題があるため、困難です。
後者の問題に取り組むために、sim2real 転送用の新しいクラスのポリシーであるローカル ポリシーを利用する ManipGen を導入します。
局所性により、ロボットやオブジェクトの絶対的なポーズの不変性、スキルの順序付け、グローバル シーン構成など、さまざまな魅力的なプロパティが可能になります。
これらのポリシーを視覚、言語、動作計画の基礎モデルと組み合わせて、ロボスイート ベンチマーク タスクに対する当社メソッドの SOTA ゼロショット パフォーマンスをシミュレーションで実証します (97%)。
ローカル ポリシーをシミュレーションから現実に移し、ポーズ、オブジェクト、シーンの構成が大幅に変化する最大 8 段階の目に見えない長期的な操作タスクを解決できることを観察しました。
ManipGen は、50 の実世界の操作タスクにおいて、SayCan、OpenVLA、LLMTrajGen、VoxPoser などの SOTA アプローチよりもそれぞれ 36%、76%、62%、60% 優れたパフォーマンスを発揮します。
ビデオ結果は https://mihdalal.github.io/manipgen/ にあります

要約(オリジナル)

Sim2real for robotic manipulation is difficult due to the challenges of simulating complex contacts and generating realistic task distributions. To tackle the latter problem, we introduce ManipGen, which leverages a new class of policies for sim2real transfer: local policies. Locality enables a variety of appealing properties including invariances to absolute robot and object pose, skill ordering, and global scene configuration. We combine these policies with foundation models for vision, language and motion planning and demonstrate SOTA zero-shot performance of our method to Robosuite benchmark tasks in simulation (97%). We transfer our local policies from simulation to reality and observe they can solve unseen long-horizon manipulation tasks with up to 8 stages with significant pose, object and scene configuration variation. ManipGen outperforms SOTA approaches such as SayCan, OpenVLA, LLMTrajGen and VoxPoser across 50 real-world manipulation tasks by 36%, 76%, 62% and 60% respectively. Video results at https://mihdalal.github.io/manipgen/

arxiv情報

著者 Murtaza Dalal,Min Liu,Walter Talbott,Chen Chen,Deepak Pathak,Jian Zhang,Ruslan Salakhutdinov
発行日 2024-10-29 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク