What Matters in Language Conditioned Robotic Imitation Learning over Unstructured Data

要約

ロボット工学における長年の目標は、搭載されたセンサーで取得され、自然言語のみで指定された知覚から、幅広い日常タスクを実行できるロボットを構築することです。
最近、ピクセルからのエンドツーエンドの学習を活用することにより、言語駆動型ロボティクスで大幅な進歩が達成されましたが、セットアップの根本的なバリエーションのために、さまざまな設計の選択を行うための明確で十分に理解されたプロセスはありません。
このホワイトペーパーでは、オフラインの自由形式の模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について広範な研究を行います。
さらに、ロボット制御学習の階層的分解、マルチモーダル トランスフォーマー エンコーダー、離散潜在計画、ビデオと言語の表現を揃える自己教師ありコントラスト損失など、パフォーマンスを向上させるアーキテクチャとアルゴリズムの手法を特定します。
私たちの調査結果を改善されたモデル コンポーネントと組み合わせることで、困難な言語条件付き長期ロボット操作 CALVIN ベンチマークで最先端技術を大幅に上回る新しいアプローチを提示することができます。
自然言語で指定された行で多くの複雑な操作スキルを実行することを学習するための将来の研究を容易にするために、実装をオープンソース化しました。
http://hulc.cs.uni-freiburg.de で入手可能なコードベースとトレーニング済みモデル

要約(オリジナル)

A long-standing goal in robotics is to build robots that can perform a wide range of daily tasks from perceptions obtained with their onboard sensors and specified only via natural language. While recently substantial advances have been achieved in language-driven robotics by leveraging end-to-end learning from pixels, there is no clear and well-understood process for making various design choices due to the underlying variation in setups. In this paper, we conduct an extensive study of the most critical challenges in learning language conditioned policies from offline free-form imitation datasets. We further identify architectural and algorithmic techniques that improve performance, such as a hierarchical decomposition of the robot control learning, a multimodal transformer encoder, discrete latent plans and a self-supervised contrastive loss that aligns video and language representations. By combining the results of our investigation with our improved model components, we are able to present a novel approach that significantly outperforms the state of the art on the challenging language conditioned long-horizon robot manipulation CALVIN benchmark. We have open-sourced our implementation to facilitate future research in learning to perform many complex manipulation skills in a row specified with natural language. Codebase and trained models available at http://hulc.cs.uni-freiburg.de

arxiv情報

著者 Oier Mees,Lukas Hermann,Wolfram Burgard
発行日 2022-08-30 12:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク