Embodied Executable Policy Learning with Language-based Scene Summarization

要約

大規模言語モデル (LLM) は、ロボットの学習タスク、つまり複雑な世帯計画の支援において顕著な成功を収めています。
ただし、事前トレーニングされた LLM のパフォーマンスは、ドメイン固有のテンプレート化されたテキスト データに大きく依存しており、画像ベースの観察による現実世界のロボット学習タスクでは実現できない可能性があります。
さらに、テキスト入力を備えた既存の LLM には、専門家以外の環境との対話に応じて進化する機能がありません。
この研究では、視覚的観察のみから導き出されたロボットの実行可能なアクションをテキストの形式で生成する新しい学習パラダイムを導入します。これらの観察の言語ベースの要約を両方のドメイン間の接続橋として使用します。
私たちが提案するパラダイムは、言語命令、または言語と視覚データの組み合わせを入力として利用していた以前の研究とは一線を画しています。
さらに、私たちの方法はシーンのオラクルテキスト要約を必要としないため、学習ループに人間が関与する必要がなくなり、現実世界のロボット学習タスクにとってより実用的になります。
私たちが提案するパラダイムは、視覚的な観察を使用して環境を解釈し、シーンのテキスト要約を生成する SUM モジュールと、SUM モジュールによって提供される自然言語記述に基づいて実行可能なアクション ポリシーを生成する APM モジュールの 2 つのモジュールで構成されます。
私たちが提案する方法が、模倣学習と強化学習のアプローチを含む 2 つの微調整戦略を採用して、ターゲットのテスト タスクに効果的に適応できることを示します。
私たちは、VirtualHome 環境の 7 つの住宅レイアウトにわたって、さまざまな SUM/APM モデルの選択、環境、およびタスクを含む広範な実験を実施しています。
私たちの実験結果は、私たちの方法が既存のベースラインを上回っていることを示しており、この新しい学習パラダイムの有効性が確認されています。

要約(オリジナル)

Large Language models (LLMs) have shown remarkable success in assisting robot learning tasks, i.e., complex household planning. However, the performance of pretrained LLMs heavily relies on domain-specific templated text data, which may be infeasible in real-world robot learning tasks with image-based observations. Moreover, existing LLMs with text inputs lack the capability to evolve with non-expert interactions with environments. In this work, we introduce a novel learning paradigm that generates robots’ executable actions in the form of text, derived solely from visual observations, using language-based summarization of these observations as the connecting bridge between both domains. Our proposed paradigm stands apart from previous works, which utilized either language instructions or a combination of language and visual data as inputs. Moreover, our method does not require oracle text summarization of the scene, eliminating the need for human involvement in the learning loop, which makes it more practical for real-world robot learning tasks. Our proposed paradigm consists of two modules: the SUM module, which interprets the environment using visual observations and produces a text summary of the scene, and the APM module, which generates executable action policies based on the natural language descriptions provided by the SUM module. We demonstrate that our proposed method can employ two fine-tuning strategies, including imitation learning and reinforcement learning approaches, to adapt to the target test tasks effectively. We conduct extensive experiments involving various SUM/APM model selections, environments, and tasks across 7 house layouts in the VirtualHome environment. Our experimental results demonstrate that our method surpasses existing baselines, confirming the effectiveness of this novel learning paradigm.

arxiv情報

著者 Jielin Qiu,Mengdi Xu,William Han,Seungwhan Moon,Ding Zhao
発行日 2023-06-09 06:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク