FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning

要約

近年、ロボティクス分野では、大規模なマルチタスク動作のクローニングを通じてジェネラリストロボットポリシーの構築に向けたいくつかの取り組みが開始されています。
ただし、これらのポリシーを直接展開すると、ポリシーが目に見えない状態やタスクと格闘し、満足のいくパフォーマンスが得られません。
これらのモデルのパフォーマンスの停滞期を打破し、その機能を新たな高みに引き上げるにはどうすればよいでしょうか?
この論文では、堅牢な事前トレーニング表現、大規模トレーニング、および勾配安定化技術を統合する大規模な強化学習微調整フレームワークである FLaRe を提案します。
私たちの方法は、タスクの完了に向けて事前トレーニングされたポリシーを調整し、以前に実証されたタスクとまったく新しいタスクおよび実施形態の両方で最先端(SoTA)のパフォーマンスを達成します。
具体的には、一連の長距離モバイル操作タスクにおいて、FLaRe は目に見えない環境で 79.5% の平均成功率を達成し、以前の SoTA 手法と比較してシミュレーションで +23.6%、実際のロボットで +30.7% の絶対的な改善を実現しました。
まばらな報酬のみを利用することで、私たちのアプローチは最小限の人的労力で事前トレーニング データを超えた新しい機能への一般化を可能にします。
さらに、微調整を 1 日未満で行うことで、新しい実施形態や動作に迅速に適応できることを実証します。
ビデオはプロジェクト Web サイト (https://robot-flare.github.io/) でご覧いただけます。

要約(オリジナル)

In recent years, the Robotics field has initiated several efforts toward building generalist robot policies through large-scale multi-task Behavior Cloning. However, direct deployments of these policies have led to unsatisfactory performance, where the policy struggles with unseen states and tasks. How can we break through the performance plateau of these models and elevate their capabilities to new heights? In this paper, we propose FLaRe, a large-scale Reinforcement Learning fine-tuning framework that integrates robust pre-trained representations, large-scale training, and gradient stabilization techniques. Our method aligns pre-trained policies towards task completion, achieving state-of-the-art (SoTA) performance both on previously demonstrated and on entirely novel tasks and embodiments. Specifically, on a set of long-horizon mobile manipulation tasks, FLaRe achieves an average success rate of 79.5% in unseen environments, with absolute improvements of +23.6% in simulation and +30.7% on real robots over prior SoTA methods. By utilizing only sparse rewards, our approach can enable generalizing to new capabilities beyond the pretraining data with minimal human effort. Moreover, we demonstrate rapid adaptation to new embodiments and behaviors with less than a day of fine-tuning. Videos can be found on the project website at https://robot-flare.github.io/

arxiv情報

著者 Jiaheng Hu,Rose Hendrix,Ali Farhadi,Aniruddha Kembhavi,Roberto Martin-Martin,Peter Stone,Kuo-Hao Zeng,Kiana Ehsani
発行日 2024-09-30 21:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク