Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models

要約

事前トレーニングされ凍結されたラージ言語モデル (LLM) は、適切な数ショットのサンプル プロンプトを通じて、単純なシーンの再配置命令をロボットの視覚運動機能上のプログラムに効果的にマッピングできます。
オープンドメインの自然言語を解析し、プロンプト エンジニアリング時には分からないユーザーの特異な手順に適応するには、固定プロンプトでは不十分です。
この論文では、言語とプログラムのペアの外部メモリを備えた具現化エージェントである HELPER を紹介します。HELPER は、検索拡張 LLM プロンプトを通じて人間とロボットの自由形式の対話を解析してアクション プログラムに変換します。関連する記憶は現在の対話に基づいて取得されます。
指示、修正、または VLM の説明、LLM クエリのコンテキスト内プロンプトの例として使用されます。
メモリは展開中に拡張され、ユーザーの言語と行動計画のペアが含まれるようになり、将来の推論を支援し、ユーザーの言語とルーチンに合わせてカスタマイズされます。
HELPER は、対話履歴からの実行 (EDH) と対話からの軌跡 (TfD) の両方において、TEACh ベンチマークの新しい最先端を設定し、TfD の以前の最先端と比較して 1.7 倍の改善を実現しました。
私たちのモデル、コード、ビデオの結果は、プロジェクトの Web サイト https://helper-agent-llm.github.io でご覧いただけます。

要約(オリジナル)

Pre-trained and frozen large language models (LLMs) can effectively map simple scene rearrangement instructions to programs over a robot’s visuomotor functions through appropriate few-shot example prompting. To parse open-domain natural language and adapt to a user’s idiosyncratic procedures, not known during prompt engineering time, fixed prompts fall short. In this paper, we introduce HELPER, an embodied agent equipped with an external memory of language-program pairs that parses free-form human-robot dialogue into action programs through retrieval-augmented LLM prompting: relevant memories are retrieved based on the current dialogue, instruction, correction, or VLM description, and used as in-context prompt examples for LLM querying. The memory is expanded during deployment to include pairs of user’s language and action plans, to assist future inferences and personalize them to the user’s language and routines. HELPER sets a new state-of-the-art in the TEACh benchmark in both Execution from Dialog History (EDH) and Trajectory from Dialogue (TfD), with a 1.7x improvement over the previous state-of-the-art for TfD. Our models, code, and video results can be found in our project’s website: https://helper-agent-llm.github.io.

arxiv情報

著者 Gabriel Sarch,Yue Wu,Michael J. Tarr,Katerina Fragkiadaki
発行日 2023-11-20 18:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク