Evaluating Vision-Language Models as Evaluators in Path Planning

要約

複雑な推論を実行するという約束にもかかわらず、大規模な言語モデル(LLM)は、エンドツーエンドの計画において有効性が限られていることが示されています。
これは興味深い質問に影響を与えました。これらのモデルがうまく計画できない場合、それらはまだ有用な計画評価者として計画の枠組みに貢献できますか?
この作業では、この質問を一般化して、視覚的理解、つまりビジョン言語モデル(VLM)で増強されたLLMSを検討します。
VLMを複雑なパス計画シナリオの計画評価者として評価する新しいベンチマークであるPathevalを紹介します。
ベンチマークで成功するには、VLMがシナリオの説明から最適なパスの特性を抽象化することができる必要があり、各パスでの正確な低レベルの認識を示し、この情報をより良いパスを決定するために統合する必要があります。
最先端のVLMの分析により、これらのモデルはベンチマークで大きな課題に直面していることが明らかになりました。
VLMは、指定されたシナリオを正確に抽象的に抽象化して、望ましい特性を特定し、提供された情報を統合する際に混合性能を示すことができることを観察します。
しかし、彼らのビジョンコンポーネントは重要なボトルネックを提示し、モデルはパスに関する低レベルの詳細を知覚するのに苦労しています。
実験結果は、この問題をエンドツーエンドの微調整を介して簡単に対処できないことを示しています。
むしろ、これらのVLMが効果的なパス評価者になるには、これらのビジョンエンコーダのタスク固有の識別適応が必要です。

要約(オリジナル)

Despite their promise to perform complex reasoning, large language models (LLMs) have been shown to have limited effectiveness in end-to-end planning. This has inspired an intriguing question: if these models cannot plan well, can they still contribute to the planning framework as a helpful plan evaluator? In this work, we generalize this question to consider LLMs augmented with visual understanding, i.e., Vision-Language Models (VLMs). We introduce PathEval, a novel benchmark evaluating VLMs as plan evaluators in complex path-planning scenarios. Succeeding in the benchmark requires a VLM to be able to abstract traits of optimal paths from the scenario description, demonstrate precise low-level perception on each path, and integrate this information to decide the better path. Our analysis of state-of-the-art VLMs reveals that these models face significant challenges on the benchmark. We observe that the VLMs can precisely abstract given scenarios to identify the desired traits and exhibit mixed performance in integrating the provided information. Yet, their vision component presents a critical bottleneck, with models struggling to perceive low-level details about a path. Our experimental results show that this issue cannot be trivially addressed via end-to-end fine-tuning; rather, task-specific discriminative adaptation of these vision encoders is needed for these VLMs to become effective path evaluators.

arxiv情報

著者 Mohamed Aghzal,Xiang Yue,Erion Plaku,Ziyu Yao
発行日 2025-05-16 16:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク