M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place

要約

大規模な言語モデルと大規模なロボット データセットの出現により、オブジェクト操作のための高レベルの意思決定が大幅に進歩しました。
これらの汎用モデルは、言語コマンドを使用して複雑なタスクを解釈できますが、低レベルのアクション プリミティブが機能しないため、配布外のオブジェクトに一般化することが困難になることがよくあります。
対照的に、既存のタスク固有モデルは、未知のオブジェクトの低レベル操作には優れていますが、単一タイプのアクションに対してのみ機能します。
このギャップを埋めるために、乱雑なシーン内の任意のオブジェクトに対して堅牢に動作する、さまざまな種類の低レベル アクションを提供する単一モデルである M2T2 を紹介します。
M2T2 は、接触点を推論し、シーンの生の点群が与えられた場合のさまざまなアクション モードに対する有効なグリッパー ポーズを予測するトランスフォーマー モデルです。
128K シーンを含む大規模な合成データセットでトレーニングされた M2T2 は、実際のロボット上でゼロショット sim2real 転送を実現し、最先端のタスク固有モデルを備えたベースライン システムよりも全体のパフォーマンスで約 19%、37.5% 上回りました。
衝突のない配置のためにオブジェクトの向きを変更する必要がある難しいシーンで。
M2T2 は、RLBench の言語条件付きタスクのサブセットでも最先端の結果を達成します。
現実世界とシミュレーションの両方で、目に見えない物体を対象としたロボット実験のビデオは、プロジェクト Web サイト https://m2-t2.github.io でご覧いただけます。

要約(オリジナル)

With the advent of large language models and large-scale robotic datasets, there has been tremendous progress in high-level decision-making for object manipulation. These generic models are able to interpret complex tasks using language commands, but they often have difficulties generalizing to out-of-distribution objects due to the inability of low-level action primitives. In contrast, existing task-specific models excel in low-level manipulation of unknown objects, but only work for a single type of action. To bridge this gap, we present M2T2, a single model that supplies different types of low-level actions that work robustly on arbitrary objects in cluttered scenes. M2T2 is a transformer model which reasons about contact points and predicts valid gripper poses for different action modes given a raw point cloud of the scene. Trained on a large-scale synthetic dataset with 128K scenes, M2T2 achieves zero-shot sim2real transfer on the real robot, outperforming the baseline system with state-of-the-art task-specific models by about 19% in overall performance and 37.5% in challenging scenes where the object needs to be re-oriented for collision-free placement. M2T2 also achieves state-of-the-art results on a subset of language conditioned tasks in RLBench. Videos of robot experiments on unseen objects in both real world and simulation are available on our project website https://m2-t2.github.io.

arxiv情報

著者 Wentao Yuan,Adithyavairavan Murali,Arsalan Mousavian,Dieter Fox
発行日 2023-11-02 01:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク