Rethinking Mutual Information for Language Conditioned Skill Discovery on Imitation Learning

要約

言語条件付けされたロボットの動作は、人間のコマンドや指示を認識や動作と関連付けることにより、複雑なタスクを実行する上で重要な役割を果たします。
制約のない言語指示に基づいて長期的なタスクを作成する能力には、さまざまな汎用スキルの習得が必要です。
しかし、外部からの報酬や人間の監督なしに、長期にわたる複合的な環境で固有の原始的なスキルを獲得することは、大きな課題となります。
この論文では、言語条件付き政策学習の枠組み内で 2 つの形式の相互情報を使用して、数学的観点からスキルと言語指導の関係を評価します。
教師なしの方法で言語とスキル間の相互情報を最大化するために、Language Conditioned Skill Discovery (LCSD) として知られるエンドツーエンドの模倣学習アプローチを提案します。
具体的には、ベクトル量子化を利用して離散的な潜在スキルを学習し、スキルの軌跡のシーケンスを活用して高レベルの意味論的な命令を再構築します。
BabyAI、LORel、CALVIN を含む、言語条件付きロボットナビゲーションおよび操作タスクに関する広範な実験を通じて、私たちの方法が以前の研究よりも優れていることを実証しました。
私たちのアプローチは、目に見えないタスクに対する一般化機能の強化、スキルの解釈可能性の向上、およびタスク完了の成功率の顕著な向上を示します。

要約(オリジナル)

Language-conditioned robot behavior plays a vital role in executing complex tasks by associating human commands or instructions with perception and actions. The ability to compose long-horizon tasks based on unconstrained language instructions necessitates the acquisition of a diverse set of general-purpose skills. However, acquiring inherent primitive skills in a coupled and long-horizon environment without external rewards or human supervision presents significant challenges. In this paper, we evaluate the relationship between skills and language instructions from a mathematical perspective, employing two forms of mutual information within the framework of language-conditioned policy learning. To maximize the mutual information between language and skills in an unsupervised manner, we propose an end-to-end imitation learning approach known as Language Conditioned Skill Discovery (LCSD). Specifically, we utilize vector quantization to learn discrete latent skills and leverage skill sequences of trajectories to reconstruct high-level semantic instructions. Through extensive experiments on language-conditioned robotic navigation and manipulation tasks, encompassing BabyAI, LORel, and CALVIN, we demonstrate the superiority of our method over prior works. Our approach exhibits enhanced generalization capabilities towards unseen tasks, improved skill interpretability, and notably higher rates of task completion success.

arxiv情報

著者 Zhaoxun Ju,Chao Yang,Hongbo Wang,Yu Qiao,Fuchun Sun
発行日 2024-02-27 13:53:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.6 パーマリンク