Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following

要約

タイトル:「エンボディ・コンセプト・ラーナー:自己指導を通じたコンセプトとマッピングの学習」

要約:
-人間は、非常に若い時期でも、環境との積極的なやりとりを通じて視覚的なコンセプトを学び、幾何学やレイアウトを理解し、その構成を一般化して新しいシーンで自然言語で記述されたタスクを完了することができます。
-これを模倣するため、3Dインタラクティブ環境の「エンボディ・コンセプト・ラーナー(ECL)」を提案しています。具体的には、ロボットエージェントは、シミュレーションからの正解セマンティックおよび深度の監視を得ることなく、人間のデモンストレーションと言語指示だけで学び、視覚的なコンセプトを設定し、セマンティックマップを構築し、プログラムを実行してタスクを完成させることができます。
-ECLは、自己学習を通じてコンセプトと深度を学び、透明性があり長期計画にステップバイステップで理解できること、ALFREDベンチマークで優れた成果を示し、セマンティックラベルが提供されない場合でも、タスクに適したプログラムを実行できることなど、多くの魅力的な利点があります。
-また、この学習されたコンセプトは、オブジェクト状態の推論など、他のダウンストリームタスクでも再利用できる可能性があります。プロジェクトページ:http://ecl.csail.mit.edu/

要約(オリジナル)

Humans, even at a very early age, can learn visual concepts and understand geometry and layout through active interaction with the environment, and generalize their compositions to complete tasks described by natural languages in novel scenes. To mimic such capability, we propose Embodied Concept Learner (ECL) in an interactive 3D environment. Specifically, a robot agent can ground visual concepts, build semantic maps and plan actions to complete tasks by learning purely from human demonstrations and language instructions, without access to ground-truth semantic and depth supervisions from simulations. ECL consists of: (i) an instruction parser that translates the natural languages into executable programs; (ii) an embodied concept learner that grounds visual concepts based on language descriptions; (iii) a map constructor that estimates depth and constructs semantic maps by leveraging the learned concepts; and (iv) a program executor with deterministic policies to execute each program. ECL has several appealing benefits thanks to its modularized design. Firstly, it enables the robotic agent to learn semantics and depth unsupervisedly acting like babies, e.g., ground concepts through active interaction and perceive depth by disparities when moving forward. Secondly, ECL is fully transparent and step-by-step interpretable in long-term planning. Thirdly, ECL could be beneficial for the embodied instruction following (EIF), outperforming previous works on the ALFRED benchmark when the semantic label is not provided. Also, the learned concept can be reused for other downstream tasks, such as reasoning of object states. Project page: http://ecl.csail.mit.edu/

arxiv情報

著者 Mingyu Ding,Yan Xu,Zhenfang Chen,David Daniel Cox,Ping Luo,Joshua B. Tenenbaum,Chuang Gan
発行日 2023-04-07 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク