要約
強化学習と模倣学習のアプローチでは、タスクのほんの数例だけでうまく一般化することが難しいポリシー学習戦略が利用されます。
この研究では、状態行動軌跡の利用可能なデモンストレーション データセットからオンライン検索ベースのポリシーを生成する、言語条件付きセマンティック検索ベースの方法を提案します。
ここでは、データセット内で見つかった最も類似した操作軌跡からアクションを直接取得します。
私たちのアプローチは、CALVIN ベンチマークのベースラインのパフォーマンスを上回り、強力なゼロショット適応機能を示します。
これは、模倣学習または強化学習ベースのポリシーによって通常対処されるタスクに対して、オンライン検索ベースのポリシー アプローチの使用を拡大する大きな可能性を秘めています。
要約(オリジナル)
Reinforcement learning and Imitation Learning approaches utilize policy learning strategies that are difficult to generalize well with just a few examples of a task. In this work, we propose a language-conditioned semantic search-based method to produce an online search-based policy from the available demonstration dataset of state-action trajectories. Here we directly acquire actions from the most similar manipulation trajectories found in the dataset. Our approach surpasses the performance of the baselines on the CALVIN benchmark and exhibits strong zero-shot adaptation capabilities. This holds great potential for expanding the use of our online search-based policy approach to tasks typically addressed by Imitation Learning or Reinforcement Learning-based policies.
arxiv情報
| 著者 | Jannik Sheikh,Andrew Melnik,Gora Chand Nandi,Robert Haschke |
| 発行日 | 2023-12-10 16:17:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google