要約
ロボットを教えると、現実世界の環境でスキルが希望することは、特に非専門家にとっては依然として困難です。
重要なボトルネックは、ロボットデータを収集するには、多くの場合、専門知識や特殊なハードウェアが必要であり、アクセシビリティとスケーラビリティを制限することです。
自然言語は、ロボット学習のための直感的でアクセス可能なインターフェイスを提供すると仮定します。
この目的のために、(1)非専門家が自然言語の監督を通じてロボットデータを収集できるようにする(例:「腕を右に移動する」」)、(2)この監督から直接ロボットポリシーを直接学習することを可能にする。
具体的には、自然言語の監督に基づいてロボットデモンストレーションを収集し、これらのデモンストレーションをさらに増強するデータ収集フレームワークを紹介します。
次に、この監督から言語条件の視覚運動ポリシーを学習するビジョン言語アクション(VLA)モデルであるClip-RTを提示します。
Clip-RTは、前処理されたクリップモデルを適応し、対照的な模倣学習を介して言語ベースのモーションプリミティブを予測することを学びます。
オープンなX-embodimentデータセットでClip-RTをトレーニングし、さまざまなスキルを学ぶためにフレームワークによって収集されたドメイン内データでFINTUNEを獲得します。
CLIP-RTは、新しい操作スキルを学習し、最先端のモデルであるOpenVLA(7Bパラメーター)を平均成功率で24%上回る強力な能力を示し、7倍のパラメーター(1B)を使用します。
さらに、Clip-RTが少数のショット一般化の大幅な改善を示していることを観察します。
最後に、人間や大規模な事前に守られたモデルとのコラボレーションを通じて、CLIP-RTが挑戦的なロボットタスクに関する一般化をさらに改善できることを実証します。
要約(オリジナル)
Teaching robots desired skills in real-world environments remains challenging, especially for non-experts. A key bottleneck is that collecting robotic data often requires expertise or specialized hardware, limiting accessibility and scalability. We posit that natural language offers an intuitive and accessible interface for robot learning. To this end, we study two aspects: (1) enabling non-experts to collect robotic data through natural language supervision (e.g., ‘move the arm to the right’) and (2) learning robotic policies directly from this supervision. Specifically, we introduce a data collection framework that collects robot demonstrations based on natural language supervision and further augments these demonstrations. We then present CLIP-RT, a vision-language-action (VLA) model that learns language-conditioned visuomotor policies from this supervision. CLIP-RT adapts the pretrained CLIP models and learns to predict language-based motion primitives via contrastive imitation learning. We train CLIP-RT on the Open X-Embodiment dataset and finetune it on in-domain data collected by our framework to learn diverse skills. CLIP-RT demonstrates strong capabilities in learning novel manipulation skills, outperforming the state-of-the-art model, OpenVLA (7B parameters), by 24% in average success rates, while using 7x fewer parameters (1B). We further observe that CLIP-RT shows significant improvements in few-shot generalization. Finally, through collaboration with humans or large pretrained models, we demonstrate that CLIP-RT can further improve its generalization on challenging robotic tasks.
arxiv情報
著者 | Gi-Cheon Kang,Junghyun Kim,Kyuhwan Shim,Jun Ki Lee,Byoung-Tak Zhang |
発行日 | 2025-03-05 13:41:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google