EC^2: Emergent Communication for Embodied Control

要約

タイトル:EC^2:具現制御のための出現コミュニケーション

要約:
-エンボディード制御は、ビデオデモが低レベルの知覚と制御に必要な視覚的および動きの詳細を含み、言語指示が抽象的なシンボル構造で一般化をサポートする、新しい環境での行動の素早い学習を実現するために、マルチモーダルな事前学習を活用することを必要とします。
-近年のアプローチは、2つのモダリティ間の強制的な整合性を実現するために対照的な学習を適用しますが、補完的な違いをより良くモデル化することが、ダウンストリームの適応により包括的な表現を導くことができると仮説を立てます。
-このため、我々は具現制御のための出現コミュニケーション(EC^2)を提案し、ビデオ言語表現を少ないショットの具現制御のために事前学習する新しいスキームを提供します。
-主要なアイデアは、出現的コミュニケーションにより、ビデオの意味を結びつけることで、ビデオの軌跡、出現する言語、自然言語の具現表現を学ぶことです。これらの表現は、軽量(レスソン)ポリシーネットワークのファインチューニングに使用されます。
-MetaworldとFranka Kitchenの実験により、EC^ 2が以前のビデオとテキストのための対照的な学習方法よりも優れており、タスクの入力として使用されます。
-出現する言語の重要性を確認する追加のプログラムにより、出現する言語がビデオと言語の学習に有益であり、事前学習済みのビデオキャプションを使用するよりも優れていることが確認されました。
-我々はまた、出現する言語の数量的および質的な分析を示し、具現されたタスクでの出現するコミュニケーションの理解と活用に向けた将来の方向性について議論します。

要約(オリジナル)

Embodied control requires agents to leverage multi-modal pre-training to quickly learn how to act in new environments, where video demonstrations contain visual and motion details needed for low-level perception and control, and language instructions support generalization with abstract, symbolic structures. While recent approaches apply contrastive learning to force alignment between the two modalities, we hypothesize better modeling their complementary differences can lead to more holistic representations for downstream adaption. To this end, we propose Emergent Communication for Embodied Control (EC^2), a novel scheme to pre-train video-language representations for few-shot embodied control. The key idea is to learn an unsupervised ‘language’ of videos via emergent communication, which bridges the semantics of video details and structures of natural language. We learn embodied representations of video trajectories, emergent language, and natural language using a language model, which is then used to finetune a lightweight policy network for downstream control. Through extensive experiments in Metaworld and Franka Kitchen embodied benchmarks, EC^2 is shown to consistently outperform previous contrastive learning methods for both videos and texts as task inputs. Further ablations confirm the importance of the emergent language, which is beneficial for both video and language learning, and significantly superior to using pre-trained video captions. We also present a quantitative and qualitative analysis of the emergent language and discuss future directions toward better understanding and leveraging emergent communication in embodied tasks.

arxiv情報

著者 Yao Mu,Shunyu Yao,Mingyu Ding,Ping Luo,Chuang Gan
発行日 2023-04-19 06:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク