Effective Tuning Strategies for Generalist Robot Manipulation Policies

要約

汎用的なロボット操作ポリシー (GMP) は、幅広いタスク、デバイス、環境にわたって一般化できる可能性があります。
しかし、既存の政策は、広範に多様な領域をカバーするのに十分な行動データを収集することが本質的に難しいため、配布不能シナリオに引き続き苦戦しています。
微調整は、限られたサンプルで新しいドメインやタスクに GMP を迅速に適応させる実用的な方法を提供しますが、結果として得られる GMP のパフォーマンスは、微調整戦略の設計選択に関して大きく異なることが観察されています。
この研究では、まず詳細な実証研究を実施して、アクションスペース、政策責任者、監督シグナル、調整可能なパラメータの選択をカバーするGMPの微調整戦略における主要な要素の影響を調査します。そこでは2,500のロールアウトが評価されます。
単一の構成。
私たちは体系的に議論して調査結果を要約し、重要な設計の選択肢を特定します。これは、GMP の微調整のための実用的なガイドラインを提供すると信じています。
慎重に選択された微調整戦略を使用した低データ領域では、GMP が最先端の模倣学習アルゴリズムを大幅に上回るパフォーマンスを示していることがわかります。
この研究で提示された結果は、微調整された GMP に関する将来の研究のための新しいベースラインを確立し、コミュニティの GMP ツールボックスに重要な追加を提供します。

要約(オリジナル)

Generalist robot manipulation policies (GMPs) have the potential to generalize across a wide range of tasks, devices, and environments. However, existing policies continue to struggle with out-of-distribution scenarios due to the inherent difficulty of collecting sufficient action data to cover extensively diverse domains. While fine-tuning offers a practical way to quickly adapt a GMPs to novel domains and tasks with limited samples, we observe that the performance of the resulting GMPs differs significantly with respect to the design choices of fine-tuning strategies. In this work, we first conduct an in-depth empirical study to investigate the effect of key factors in GMPs fine-tuning strategies, covering the action space, policy head, supervision signal and the choice of tunable parameters, where 2,500 rollouts are evaluated for a single configuration. We systematically discuss and summarize our findings and identify the key design choices, which we believe give a practical guideline for GMPs fine-tuning. We observe that in a low-data regime, with carefully chosen fine-tuning strategies, a GMPs significantly outperforms the state-of-the-art imitation learning algorithms. The results presented in this work establish a new baseline for future studies on fine-tuned GMPs, and provide a significant addition to the GMPs toolbox for the community.

arxiv情報

著者 Wenbo Zhang,Yang Li,Yanyuan Qiao,Siyuan Huang,Jiajun Liu,Feras Dayoub,Xiao Ma,Lingqiao Liu
発行日 2024-10-02 04:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク