Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation

要約

学習済み言語条件付きロボット ポリシーは、さまざまな命令セットにわたって事前にトレーニングされた場合でも、現実世界の新しいタスクに効果的に適応するのに苦労することがよくあります。
我々は、視覚言語モデル (VLM) によって提供されるタスク分解の意味論的理解を利用した、目に見えないタスクに少数のショットで適応するための新しいアプローチを提案します。
私たちの手法である言語最適化によるポリシー適応(PALO)は、タスクのいくつかのデモンストレーションと、VLM からサンプリングされた提案された言語分解を組み合わせて、迅速なノンパラメトリック適応を迅速に可能にし、大規模な微調整データセットの必要性を回避します。
私たちは、目に見えない、長期にわたるロボット操作の困難なタスクからなる広範な現実世界の実験で PALO を評価します。
PALO は、現実世界で長期にわたる多層タスクを一貫して完了でき、最先端の事前トレーニングされたジェネラリスト ポリシーや同じデモンストレーションにアクセスできるメソッドを上回るパフォーマンスを発揮できることがわかりました。

要約(オリジナル)

Learned language-conditioned robot policies often struggle to effectively adapt to new real-world tasks even when pre-trained across a diverse set of instructions. We propose a novel approach for few-shot adaptation to unseen tasks that exploits the semantic understanding of task decomposition provided by vision-language models (VLMs). Our method, Policy Adaptation via Language Optimization (PALO), combines a handful of demonstrations of a task with proposed language decompositions sampled from a VLM to quickly enable rapid nonparametric adaptation, avoiding the need for a larger fine-tuning dataset. We evaluate PALO on extensive real-world experiments consisting of challenging unseen, long-horizon robot manipulation tasks. We find that PALO is able of consistently complete long-horizon, multi-tier tasks in the real world, outperforming state of the art pre-trained generalist policies, and methods that have access to the same demonstrations.

arxiv情報

著者 Vivek Myers,Bill Chunyuan Zheng,Oier Mees,Sergey Levine,Kuan Fang
発行日 2024-08-29 03:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク