要約
大規模な言語モデルの推論を促すチェーン(COT)は、テキストの手がかりと記憶された知識に過度に依存しているため、ビジョン言語モデル(VLM)におけるその有効性が限られたままです。
複雑な現実世界のシナリオにおけるVLMの視覚的推論機能を調査するために、DrivingVQAを紹介します。これは、推論プロセスに関連する専門家が書いた説明と基礎エンティティを含む3,931の複数選択問題を含む、運転理論試験から派生した視覚的な質問データセットを紹介します。
このデータセットを活用すると、これらの関連するエンティティに対応する視覚作物を使用してVLMが推論できるようにする検索ベースのインターリーブ視覚チェーンオブテアのメソッドであるRIV-COTを提案します。
私たちの実験は、RIV-COTがバニラのコットのプロンプトに対して回答の精度を3.1%、推論精度を4.6%改善することを示しています。
さらに、自動的に生成された擬似適応性を活用して、コットプロンプトを上回ることにより、この方法はより大きなA-OKVQA推論データセットに効果的にスケーリングすることを実証します。
要約(オリジナル)
While chain-of-thought (CoT) prompting improves reasoning in large language models, its effectiveness in vision-language models (VLMs) remains limited due to over-reliance on textual cues and memorized knowledge. To investigate the visual reasoning capabilities of VLMs in complex real-world scenarios, we introduce DrivingVQA, a visual question answering dataset derived from driving theory exams, which contains 3,931 multiple-choice problems with expert-written explanations and grounded entities relevant to the reasoning process. Leveraging this dataset, we propose RIV-CoT, a Retrieval-Based Interleaved Visual Chain-of-Thought method that enables VLMs to reason using visual crops corresponding to these relevant entities. Our experiments demonstrate that RIV-CoT improves answer accuracy by 3.1% and reasoning accuracy by 4.6% over vanilla CoT prompting. Furthermore, we demonstrate that our method effectively scales to the larger A-OKVQA reasoning dataset by leveraging automatically generated pseudo-labels, outperforming CoT prompting.
arxiv情報
著者 | Charles Corbière,Simon Roburin,Syrielle Montariol,Antoine Bosselut,Alexandre Alahi |
発行日 | 2025-04-08 17:09:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google