要約
タイトル:プログラム的にグラウンディングされ、組み合わせ的に汎用的なロボット操作
要約:
– 現実世界で動作するロボットには、豊富な操作スキルとそれらのスキルを適用するタイミングを意味的に推論する能力が必要です。
– これを目的として、最近の研究では、大規模な事前学習済みビジョン言語(VL)モデルからの意味表現を操作モデルに統合し、これらにより一般的な推論能力を付加しています。
– しかし、このような表現を統合するための従来の事前学習-微調整パイプラインは、ドメイン固有のアクション情報とドメイン一般の視覚情報の学習を絡め合わせ、データ効率の低いトレーニングと未知のオブジェクトやタスクに対する一般化の低下につながることがわかりました。
– この目的のために、プログラムポートというモジュラーアプローチを提案し、言語の構文と意味構造を利用して、事前学習済みのVLモデルをより効果的に活用します。
– フレームワークは、セマンティックパーサを使用して実行可能なプログラムを回復し、異なるモダリティにまたがるビジョンとアクションに根付いた機能モジュールで構成されるプログラムを作成します。
– 各機能モジュールは、決定論的な演算と学習可能なニューラルネットワークの組み合わせとして実現されます。
– プログラムの実行は、ロボットのエンドエフェクターの汎用操作基本操作のパラメータを生成します。
– モジュラーネットワーク全体はエンドツーエンドの模倣学習目標でトレーニングできます。
– 実験では、モデルが成功裏にアクションと認識を分離し、様々な操作行動でのゼロショットおよび複合的な一般化の改善につながることを示しています。
要約(オリジナル)
Robots operating in the real world require both rich manipulation skills as well as the ability to semantically reason about when to apply those skills. Towards this goal, recent works have integrated semantic representations from large-scale pretrained vision-language (VL) models into manipulation models, imparting them with more general reasoning capabilities. However, we show that the conventional pretraining-finetuning pipeline for integrating such representations entangles the learning of domain-specific action information and domain-general visual information, leading to less data-efficient training and poor generalization to unseen objects and tasks. To this end, we propose ProgramPort, a modular approach to better leverage pretrained VL models by exploiting the syntactic and semantic structures of language instructions. Our framework uses a semantic parser to recover an executable program, composed of functional modules grounded on vision and action across different modalities. Each functional module is realized as a combination of deterministic computation and learnable neural networks. Program execution produces parameters to general manipulation primitives for a robotic end-effector. The entire modular network can be trained with end-to-end imitation learning objectives. Experiments show that our model successfully disentangles action and perception, translating to improved zero-shot and compositional generalization in a variety of manipulation behaviors. Project webpage at: \url{https://progport.github.io}.
arxiv情報
著者 | Renhao Wang,Jiayuan Mao,Joy Hsu,Hang Zhao,Jiajun Wu,Yang Gao |
発行日 | 2023-04-26 20:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI