要約
大型トランスフォーマーによるインコンテキスト学習の優れた機能に続き、インコンテキスト模倣学習 (ICIL) はロボット工学にとって有望な機会です。
インスタント ポリシーを導入します。これは、わずか 1 つまたは 2 つのデモンストレーションから新しいタスクを (さらなるトレーニングなしで) 瞬時に学習し、2 つの主要なコンポーネントを通じて ICIL を実現します。
まず、グラフ表現を通じて帰納的バイアスを導入し、学習された拡散プロセスによるグラフ生成問題として ICIL をモデル化し、デモンストレーション、観察、およびアクションに対する構造化された推論を可能にします。
次に、擬似デモンストレーション (シミュレーションで生成された任意の軌道) をトレーニング データの事実上無限のプールとして使用して、そのようなモデルをトレーニングできることを示します。
模擬実験と実際の実験では、インスタント ポリシーにより日常のロボットのさまざまなタスクを迅速に学習できることが示されています。
また、それが言語定義のタスクへのクロスエンコーディングおよびゼロショット転送の基盤としてどのように機能するかについても示します。
コードとビデオは https://www.robot-learning.uk/instant-policy で入手できます。
要約(オリジナル)
Following the impressive capabilities of in-context learning with large transformers, In-Context Imitation Learning (ICIL) is a promising opportunity for robotics. We introduce Instant Policy, which learns new tasks instantly (without further training) from just one or two demonstrations, achieving ICIL through two key components. First, we introduce inductive biases through a graph representation and model ICIL as a graph generation problem with a learned diffusion process, enabling structured reasoning over demonstrations, observations, and actions. Second, we show that such a model can be trained using pseudo-demonstrations – arbitrary trajectories generated in simulation – as a virtually infinite pool of training data. Simulated and real experiments show that Instant Policy enables rapid learning of various everyday robot tasks. We also show how it can serve as a foundation for cross-embodiment and zero-shot transfer to language-defined tasks. Code and videos are available at https://www.robot-learning.uk/instant-policy.
arxiv情報
著者 | Vitalis Vosylius,Edward Johns |
発行日 | 2024-11-19 16:45:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google