JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents

要約

実生活のタスクを実行する会話型具象化エージェントの構築は、人間とエージェントの効果的なコミュニケーション、マルチモーダル理解、長距離逐次的意思決定などが必要なため、長年の研究目標ではあるがかなり困難なものである。従来の記号的手法はスケーリングと一般化の問題を抱えており、一方、エンドツーエンドの深層学習モデルはデータの希少性と高いタスクの複雑性に苦しみ、しばしば説明が困難であった。両者の世界から利益を得るために、我々はモジュラー、一般化可能、解釈可能な会話型具象化エージェントのためのニューロシンボリックなコモンセンス推論フレームワークであるJARVISを提案する。まず、言語理解とサブゴールプランニングのための大規模言語モデル(LLM)を促し、視覚的観察から意味マップを構築することにより、シンボル表現を獲得する。次に、タスクレベルおよびアクションレベルの常識に基づき、シンボリックモジュールがサブゴールプランニングとアクション生成のための理由付けを行う。JARVISは、対話履歴からの実行(EDH)、対話からの軌跡(TfD)、2エージェントタスク完了(TATC)を含む3つの対話ベースの体現タスクすべてにおいて、最先端(SOTA)の結果を達成している(例えば、本手法により、未見成功率はEDHで6.1%から15.8%に向上した)。さらに、タスクのパフォーマンスに影響を与える本質的な要因を系統的に分析し、本手法の優位性を数発勝負の環境で実証する。JARVISモデルは、Alexa Prize SimBot Public Benchmark Challengeで1位を獲得しています。

要約(オリジナル)

Building a conversational embodied agent to execute real-life tasks has been a long-standing yet quite challenging research goal, as it requires effective human-agent communication, multi-modal understanding, long-range sequential decision making, etc. Traditional symbolic methods have scaling and generalization issues, while end-to-end deep learning models suffer from data scarcity and high task complexity, and are often hard to explain. To benefit from both worlds, we propose JARVIS, a neuro-symbolic commonsense reasoning framework for modular, generalizable, and interpretable conversational embodied agents. First, it acquires symbolic representations by prompting large language models (LLMs) for language understanding and sub-goal planning, and by constructing semantic maps from visual observations. Then the symbolic module reasons for sub-goal planning and action generation based on task- and action-level common sense. Extensive experiments on the TEACh dataset validate the efficacy and efficiency of our JARVIS framework, which achieves state-of-the-art (SOTA) results on all three dialog-based embodied tasks, including Execution from Dialog History (EDH), Trajectory from Dialog (TfD), and Two-Agent Task Completion (TATC) (e.g., our method boosts the unseen Success Rate on EDH from 6.1\% to 15.8\%). Moreover, we systematically analyze the essential factors that affect the task performance and also demonstrate the superiority of our method in few-shot settings. Our JARVIS model ranks first in the Alexa Prize SimBot Public Benchmark Challenge.

arxiv情報

著者 Kaizhi Zheng,Kaiwen Zhou,Jing Gu,Yue Fan,Jialu Wang,Zonglin Di,Xuehai He,Xin Eric Wang
発行日 2022-09-07 14:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク