AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

要約

一般的な言語条件付き両手操作タスクを実行することは、家事サービスから産業組み立てに至るまでの多くのアプリケーションにとって非常に重要です。
ただし、両手操作データの収集は高次元のアクション空間のため高価であり、一般的な両手操作タスクを処理する従来の方法では課題が生じています。
対照的に、単手動ポリシーは、スケーリングされたモデル パラメーターとトレーニング データにより、幅広いタスクにわたって優れた一般化可能性を最近実証しており、両手動システムに共有可能な操作知識を提供できます。
この目的を達成するために、我々は AnyBimanual という名前のプラグアンドプレイ手法を提案します。これは、事前に訓練された単手動ポリシーを、少数の双手動デモンストレーションで一般的な双手動操作ポリシーに移行します。
具体的には、まずスキル マネージャーを導入して、両手操作タスク用の事前トレーニング済みの片手動ポリシーから検出されたスキル表現を動的にスケジュールします。これは、スキル プリミティブとタスク指向の補正を線形的に組み合わせて、両手操作命令を表します。
単手動システムと両手システムの間の観察の不一致を軽減するために、ワークスペースの視覚的埋め込み用のソフト マスクを生成する視覚的アライナーを提示します。これは、各アームの単手動ポリシー モデルの視覚入力を事前トレーニング段階中のものと調整することを目的としています。
AnyBimanual は、RLBench2 の 12 のシミュレートされたタスクで優れていることを示し、以前の方法と比較して成功率が 12.67% 大幅に向上しました。
9 つの現実世界のタスクに関する実験では、その実用性がさらに検証され、平均成功率は 84.62% でした。

要約(オリジナル)

Performing general language-conditioned bimanual manipulation tasks is of great importance for many applications ranging from household service to industrial assembly. However, collecting bimanual manipulation data is expensive due to the high-dimensional action space, which poses challenges for conventional methods to handle general bimanual manipulation tasks. In contrast, unimanual policy has recently demonstrated impressive generalizability across a wide range of tasks because of scaled model parameters and training data, which can provide sharable manipulation knowledge for bimanual systems. To this end, we propose a plug-and-play method named AnyBimanual, which transfers pre-trained unimanual policy to general bimanual manipulation policy with few bimanual demonstrations. Specifically, we first introduce a skill manager to dynamically schedule the skill representations discovered from pre-trained unimanual policy for bimanual manipulation tasks, which linearly combines skill primitives with task-oriented compensation to represent the bimanual manipulation instruction. To mitigate the observation discrepancy between unimanual and bimanual systems, we present a visual aligner to generate soft masks for visual embedding of the workspace, which aims to align visual input of unimanual policy model for each arm with those during pretraining stage. AnyBimanual shows superiority on 12 simulated tasks from RLBench2 with a sizable 12.67% improvement in success rate over previous methods. Experiments on 9 real-world tasks further verify its practicality with an average success rate of 84.62%.

arxiv情報

著者 Guanxing Lu,Tengbo Yu,Haoyuan Deng,Season Si Chen,Yansong Tang,Ziwei Wang
発行日 2024-12-09 18:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク