FlySearch: Exploring how vision-language models explore

要約

現実の世界は混乱しており、構造化されていない。重要な情報を発見するためには、しばしば能動的で目標主導型の探索が必要となる。最近、多くの困難なタスクで人気のゼロショット・ツールとして登場した視覚言語モデル(VLM)が、このような状況下で効果的に動作できるかどうかはまだわからない。本論文では、複雑なシーンでオブジェクトを検索し、ナビゲートするための3D、屋外、フォトリアリスティックな環境であるFlySearchを導入することで、この疑問に答える。我々は、難易度の異なる3つのシナリオを定義し、最先端のVLMでは、最も単純な探索タスクでさえも確実に解決できないことを観察した。我々は、幻覚から文脈の誤解、タスク計画の失敗まで、一連の中心的な原因を特定し、そのうちのいくつかは微調整によって対処可能であることを示す。ベンチマーク、シナリオ、コードベースを公開する。

要約(オリジナル)

The real world is messy and unstructured. Uncovering critical information often requires active, goal-driven exploration. It remains to be seen whether Vision-Language Models (VLMs), which recently emerged as a popular zero-shot tool in many difficult tasks, can operate effectively in such conditions. In this paper, we answer this question by introducing FlySearch, a 3D, outdoor, photorealistic environment for searching and navigating to objects in complex scenes. We define three sets of scenarios with varying difficulty and observe that state-of-the-art VLMs cannot reliably solve even the simplest exploration tasks, with the gap to human performance increasing as the tasks get harder. We identify a set of central causes, ranging from vision hallucination, through context misunderstanding, to task planning failures, and we show that some of them can be addressed by finetuning. We publicly release the benchmark, scenarios, and the underlying codebase.

arxiv情報

著者 Adam Pardyl,Dominik Matuszek,Mateusz Przebieracz,Marek Cygan,Bartosz Zieliński,Maciej Wołczyk
発行日 2025-06-04 09:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク