FindingDory: A Benchmark to Evaluate Memory in Embodied Agents

要約

大規模なビジョン言語モデルは最近、計画および制御タスクの印象的なパフォーマンスを実証し、現実世界のロボット工学へのアプリケーションへの関心を促進しています。
ただし、具体化されたコンテキストでの推論のためにこれらのモデルを展開することは、複数日にわたって収集された長期的な経験を組み込む能力によって制限され、膨大な画像コレクションで表されます。
現在のVLMは通常、数百以上の画像を同時に処理するのに苦労しており、具体化された設定で長期的なメモリを処理するためのより効率的なメカニズムの必要性を強調しています。
これらのモデルを長老型制御のために効果的に評価するには、ベンチマークがメモリが成功するために重要なシナリオを具体的にターゲットにする必要があります。
既存の長距離QAベンチマークは、オブジェクトの操作やナビゲーションなどの具体化された課題を見落としています。これは、過去の相互作用に対する低レベルのスキルと細かい推論を必要とします。
さらに、具体化されたエージェントにおける効果的なメモリ統合には、関連する履歴情報をリコールすることと、その情報に基づいてアクションの実行の両方が含まれ、単独ではなくこれらの側面を一緒に研究することが不可欠です。
この作業では、ハビタットシミュレーターに長距離具体化されたタスクの新しいベンチマークを紹介します。
このベンチマークは、環境での持続的なエンゲージメントとコンテキスト認識を必要とする60のタスクにわたってメモリベースの機能を評価します。
タスクは、メモリと推論のスケーラブルな評価を可能にするため、より長くより挑戦的なバージョンに手続き的に拡張することもできます。
また、最先端のVLMを低レベルのナビゲーションポリシーと統合し、これらのメモリ集約型タスクでのパフォーマンスを評価し、改善のために領域を強調するベースラインを提示します。

要約(オリジナル)

Large vision-language models have recently demonstrated impressive performance in planning and control tasks, driving interest in their application to real-world robotics. However, deploying these models for reasoning in embodied contexts is limited by their ability to incorporate long-term experience collected across multiple days and represented by vast collections of images. Current VLMs typically struggle to process more than a few hundred images concurrently, highlighting the need for more efficient mechanisms to handle long-term memory in embodied settings. To effectively evaluate these models for long-horizon control, a benchmark must specifically target scenarios where memory is crucial for success. Existing long-video QA benchmarks overlook embodied challenges like object manipulation and navigation, which demand low-level skills and fine-grained reasoning over past interactions. Moreover, effective memory integration in embodied agents involves both recalling relevant historical information and executing actions based on that information, making it essential to study these aspects together rather than in isolation. In this work, we introduce a new benchmark for long-range embodied tasks in the Habitat simulator. This benchmark evaluates memory-based capabilities across 60 tasks requiring sustained engagement and contextual awareness in an environment. The tasks can also be procedurally extended to longer and more challenging versions, enabling scalable evaluation of memory and reasoning. We also present baselines that integrate state-of-the-art VLMs with low level navigation policies, assessing their performance on these memory-intensive tasks and highlight areas for improvement.

arxiv情報

著者 Karmesh Yadav,Yusuf Ali,Gunshi Gupta,Yarin Gal,Zsolt Kira
発行日 2025-06-18 17:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク