ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

要約

Rewindを紹介します。これは、タスクごとのデモンストレーションなしの言語指示からのみロボット操作タスクを学習するためのフレームワークを紹介します。
標準強化学習(RL)および模倣学習方法では、すべての新しいタスクの人間が設計した報酬機能またはデモンストレーションを通じて専門家の監督が必要です。
対照的に、巻き戻しは小さなデモデータセットから始まり、次のことを学習します。
目に見えないタスクのバリエーションを考えると、学習された報酬関数を使用して事前に訓練されたポリシーを微調整し、最小限のオンラインインタラクションを必要とします。
Rewindの報酬モデルは、目に見えないタスクに効果的に一般化し、報酬の一般化とポリシーの調整メトリックで最大2.4倍のベースラインを上回ることを示します。
最後に、巻き戻しが新しいタスクへのサンプル効率の高い適応を可能にし、シミュレーションで2倍のベースラインを破り、実世界の前提条件の二近政策を5倍改善することを実証し、スケーラブルな実世界のロボット学習に向けて一歩を踏み出しました。
https://rewind-reward.github.io/のウェブサイトを参照してください。

要約(オリジナル)

We introduce ReWiND, a framework for learning robot manipulation tasks solely from language instructions without per-task demonstrations. Standard reinforcement learning (RL) and imitation learning methods require expert supervision through human-designed reward functions or demonstrations for every new task. In contrast, ReWiND starts from a small demonstration dataset to learn: (1) a data-efficient, language-conditioned reward function that labels the dataset with rewards, and (2) a language-conditioned policy pre-trained with offline RL using these rewards. Given an unseen task variation, ReWiND fine-tunes the pre-trained policy using the learned reward function, requiring minimal online interaction. We show that ReWiND’s reward model generalizes effectively to unseen tasks, outperforming baselines by up to 2.4x in reward generalization and policy alignment metrics. Finally, we demonstrate that ReWiND enables sample-efficient adaptation to new tasks, beating baselines by 2x in simulation and improving real-world pretrained bimanual policies by 5x, taking a step towards scalable, real-world robot learning. See website at https://rewind-reward.github.io/.

arxiv情報

著者 Jiahui Zhang,Yusen Luo,Abrar Anwar,Sumedh Anand Sontakke,Joseph J Lim,Jesse Thomason,Erdem Biyik,Jesse Zhang
発行日 2025-05-16 06:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク