要約
身体化された日常タスクは、身体化された AI コミュニティで人気のあるタスクであり、エージェントは自然言語の指示と視覚的観察に基づいて一連のアクションを実行する必要があります。
従来の学習ベースのアプローチは 2 つの課題に直面しています。
まず、自然言語命令には明示的なタスク計画が欠けていることがよくあります。
第 2 に、モデルにタスク環境の知識を提供するには、広範なトレーニングが必要です。
大規模言語モデル (LLM) に基づく以前の作品は、タスク固有の知識が不足しているためにパフォーマンスが低下するか、少数のショットのサンプルとしてグラウンド トゥルースに依存していました。
上記の制限に対処するために、我々は、Progressive Retrieval Augmented Generation (P-RAG) と呼ばれる新しいアプローチを提案します。これは、LLM の強力な言語処理機能を効果的に活用するだけでなく、グラウンドトゥルースなしでタスク固有の知識を段階的に蓄積します。
関連情報をデータベースからワンショットで取得して生成を支援する従来の RAG 手法と比較して、P-RAG ではデータベースを段階的に更新する反復的なアプローチが導入されています。
各反復で、P-RAG は最新のデータベースを取得し、現在のインタラクションの経験的参照として以前のインタラクションから履歴情報を取得します。
さらに、類似したタスクを取得するだけでなく、類似した状況の取得も組み込んだ、より詳細な検索スキームも導入して、より貴重な参照エクスペリエンスを提供します。
広範な実験により、P-RAG はグラウンド トゥルースを利用せずに競争力のある結果を達成し、自己反復を通じてパフォーマンスをさらに向上できることが明らかになりました。
要約(オリジナル)
Embodied Everyday Task is a popular task in the embodied AI community, requiring agents to make a sequence of actions based on natural language instructions and visual observations. Traditional learning-based approaches face two challenges. Firstly, natural language instructions often lack explicit task planning. Secondly, extensive training is required to equip models with knowledge of the task environment. Previous works based on Large Language Model (LLM) either suffer from poor performance due to the lack of task-specific knowledge or rely on ground truth as few-shot samples. To address the above limitations, we propose a novel approach called Progressive Retrieval Augmented Generation (P-RAG), which not only effectively leverages the powerful language processing capabilities of LLMs but also progressively accumulates task-specific knowledge without ground-truth. Compared to the conventional RAG methods, which retrieve relevant information from the database in a one-shot manner to assist generation, P-RAG introduces an iterative approach to progressively update the database. In each iteration, P-RAG retrieves the latest database and obtains historical information from the previous interaction as experiential references for the current interaction. Moreover, we also introduce a more granular retrieval scheme that not only retrieves similar tasks but also incorporates retrieval of similar situations to provide more valuable reference experiences. Extensive experiments reveal that P-RAG achieves competitive results without utilizing ground truth and can even further improve performance through self-iterations.
arxiv情報
著者 | Weiye Xu,Min Wang,Wengang Zhou,Houqiang Li |
発行日 | 2024-09-17 15:29:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google