要約
私たちは、実際のロボット上でコンテキスト内模倣学習を実行するためにネクストトークン予測モデルを強化する方法を検討します。この場合、ロボットは、基礎となるポリシーパラメーターを更新せずに、入力フェーズ中に提供されたコンテキスト情報を解釈することによって新しいタスクを実行します。
我々は、言語データや報酬関数に依存せずに感覚運動軌跡の自己回帰予測を実行する因果変換器である In-Context Robot Transformer (ICRT) を提案します。
この定式化により、テスト時に新しいタスクを柔軟かつトレーニング不要で実行できるようになります。これは、人間の遠隔操作によって収集された画像観察、アクション、および状態のタプルで構成される新しいタスクの感覚運動軌跡をモデルに促すことによって実現されます。
Franka Emika ロボットを使った実験では、プロンプトとトレーニング データの両方とは異なる環境構成であっても、ICRT がプロンプトで指定された新しいタスクに適応できることが実証されました。
マルチタスク環境のセットアップでは、ICRT は、目に見えないタスクへの一般化において、ロボット工学における現在の最先端のネクストトークン予測モデルよりも大幅に優れたパフォーマンスを発揮します。
コード、チェックポイント、データは https://icrt.dev/ で入手できます。
要約(オリジナル)
We explore how to enhance next-token prediction models to perform in-context imitation learning on a real robot, where the robot executes new tasks by interpreting contextual information provided during the input phase, without updating its underlying policy parameters. We propose In-Context Robot Transformer (ICRT), a causal transformer that performs autoregressive prediction on sensorimotor trajectories without relying on any linguistic data or reward function. This formulation enables flexible and training-free execution of new tasks at test time, achieved by prompting the model with sensorimotor trajectories of the new task composing of image observations, actions and states tuples, collected through human teleoperation. Experiments with a Franka Emika robot demonstrate that the ICRT can adapt to new tasks specified by prompts, even in environment configurations that differ from both the prompt and the training data. In a multitask environment setup, ICRT significantly outperforms current state-of-the-art next-token prediction models in robotics on generalizing to unseen tasks. Code, checkpoints and data are available on https://icrt.dev/
arxiv情報
著者 | Letian Fu,Huang Huang,Gaurav Datta,Lawrence Yunliang Chen,William Chung-Ho Panitch,Fangchen Liu,Hui Li,Ken Goldberg |
発行日 | 2024-08-28 17:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google