要約
大型トランスを使用したコンテキスト内学習の印象的な能力に従って、コンテキスト内の模倣学習(ICIL)は、ロボット工学の有望な機会です。
インスタントポリシーを導入します。これは、1つまたは2つのデモンストレーションから即座に(さらなるトレーニングなしで)即座に(さらにトレーニングを行うことなく)即座に学習し、2つの重要なコンポーネントを通じてICILを達成します。
まず、グラフ表現を介して誘導バイアスを導入し、学習した拡散プロセスのグラフ生成問題としてモデルICILを導入し、デモンストレーション、観察、およびアクションで構造化された推論を可能にします。
第二に、このようなモデルは、シミュレーションで生成された任意の軌跡 – トレーニングデータのプールとして、任意の軌跡を使用してトレーニングできることを示します。
シミュレートされた実際の実験は、インスタントポリシーがさまざまな日常のロボットタスクを迅速に学習できることを示しています。
また、言語定義のタスクへの交差存在とゼロショット転送の基盤としてどのように機能するかを示します。
コードとビデオはhttps://www.robot-learning.uk/instant-policyで入手できます。
要約(オリジナル)
Following the impressive capabilities of in-context learning with large transformers, In-Context Imitation Learning (ICIL) is a promising opportunity for robotics. We introduce Instant Policy, which learns new tasks instantly (without further training) from just one or two demonstrations, achieving ICIL through two key components. First, we introduce inductive biases through a graph representation and model ICIL as a graph generation problem with a learned diffusion process, enabling structured reasoning over demonstrations, observations, and actions. Second, we show that such a model can be trained using pseudo-demonstrations – arbitrary trajectories generated in simulation – as a virtually infinite pool of training data. Simulated and real experiments show that Instant Policy enables rapid learning of various everyday robot tasks. We also show how it can serve as a foundation for cross-embodiment and zero-shot transfer to language-defined tasks. Code and videos are available at https://www.robot-learning.uk/instant-policy.
arxiv情報
著者 | Vitalis Vosylius,Edward Johns |
発行日 | 2025-04-25 15:22:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google