要約
ロボットアシスタントが自然言語命令に基づいて複雑なタスクを実行する手順を計画するための認識および推論モジュールを学習するには、多くの場合、特に短い高レベルの命令の場合、大規模な自由形式の言語注釈が必要になります。
アノテーションのコストを削減するために、大規模言語モデル (LLM) が少数のデータを含むプランナーとして使用されます。
しかし、LLM を使用する最先端のプランナーであっても、手順を詳細に検討する際には、言語的な常識に頼ることが多く、コマンド受信時の環境の状況を無視することが多く、結果として不適切なプランが生成されてしまいます。
環境に基づいた計画を生成するために、言語コマンドと環境認識の両方を使用してタスク計画を改善する FLARE (環境適応再計画組み込みエージェントを備えた少数ショット言語) を提案します。
言語指示には曖昧さや不正確な表現が含まれることが多いため、エージェントからの視覚的な合図を使用して間違いを修正することも提案します。
提案されたスキームは、視覚的な手がかりのおかげでいくつかの言語ペアを使用することを可能にし、最先端のアプローチを上回ります。
私たちのコードは https://github.com/snumprlab/flare で入手できます。
要約(オリジナル)
Learning a perception and reasoning module for robotic assistants to plan steps to perform complex tasks based on natural language instructions often requires large free-form language annotations, especially for short high-level instructions. To reduce the cost of annotation, large language models (LLMs) are used as a planner with few data. However, when elaborating the steps, even the state-of-the-art planner that uses LLMs mostly relies on linguistic common sense, often neglecting the status of the environment at command reception, resulting in inappropriate plans. To generate plans grounded in the environment, we propose FLARE (Few-shot Language with environmental Adaptive Replanning Embodied agent), which improves task planning using both language command and environmental perception. As language instructions often contain ambiguities or incorrect expressions, we additionally propose to correct the mistakes using visual cues from the agent. The proposed scheme allows us to use a few language pairs thanks to the visual cues and outperforms state-of-the-art approaches. Our code is available at https://github.com/snumprlab/flare.
arxiv情報
著者 | Taewoong Kim,Byeonghwi Kim,Jonghyun Choi |
発行日 | 2024-12-23 05:20:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google