tagE: Enabling an Embodied Agent to Understand Human Instructions

要約

自然言語は、物理的な存在を持つ知的エージェントが人間と対話する際の主要なコミュニケーション モードとして機能します。
感情分析、意図予測、質問応答、要約などの取り組みを含む自然言語理解 (NLU) に焦点を当てた研究が数多く行われていますが、身体化されたエージェントによる具体的なアクションが必要な状況を対象とした NLU の範囲は依然として限られています。
自然言語に固有のあいまいさと不完全性は、人間の意図を解読しようと努める知的エージェントにとって課題となります。
この苦境に正面から取り組むために、私たちは、身体化エージェント用のタスクと引数のグラウンディング (tagE) として知られる新しいシステムを導入します。
私たちのシステムの中核には、自然言語で表現された複雑なタスク命令から一連のタスクを抽出するように設計された独創的なニューラル ネットワーク モデルが採用されています。
私たちが提案するモデルは、これらの複雑な命令からタスクとそれに対応する引数を効果的に抽出するために、ネストされたデコーディングで強化されたエンコーダー/デコーダー フレームワークを採用しています。
これらの抽出されたタスクは、ロボットの確立されたスキルのコレクションにマッピング (または基礎付け) されますが、引数は環境内に存在するオブジェクトに根拠が見出されます。
システムのトレーニングと評価を容易にするために、複雑な命令を特徴とするデータセットを厳選しました。
私たちの実験結果は、堅牢なベースライン モデルを上回るパフォーマンスを示しているため、私たちのアプローチの優れた点を強調しています。

要約(オリジナル)

Natural language serves as the primary mode of communication when an intelligent agent with a physical presence engages with human beings. While a plethora of research focuses on natural language understanding (NLU), encompassing endeavors such as sentiment analysis, intent prediction, question answering, and summarization, the scope of NLU directed at situations necessitating tangible actions by an embodied agent remains limited. The inherent ambiguity and incompleteness inherent in natural language present challenges for intelligent agents striving to decipher human intention. To tackle this predicament head-on, we introduce a novel system known as task and argument grounding for Embodied agents (tagE). At its core, our system employs an inventive neural network model designed to extract a series of tasks from complex task instructions expressed in natural language. Our proposed model adopts an encoder-decoder framework enriched with nested decoding to effectively extract tasks and their corresponding arguments from these intricate instructions. These extracted tasks are then mapped (or grounded) to the robot’s established collection of skills, while the arguments find grounding in objects present within the environment. To facilitate the training and evaluation of our system, we have curated a dataset featuring complex instructions. The results of our experiments underscore the prowess of our approach, as it outperforms robust baseline models.

arxiv情報

著者 Chayan Sarkar,Avik Mitra,Pradip Pramanick,Tapas Nayak
発行日 2023-10-24 08:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク