要約
推論は、複雑な複数ステップの問題を解決するための基本的な能力であり、特に視覚的なコンテキストでは、逐次段階的な理解が不可欠です。
既存のアプローチには、視覚的推論を評価するための包括的なフレームワークが欠けており、段階的な問題解決が重視されていません。
この目的を達成するために、私たちは 3 つの主要な貢献を通じて、大規模言語モデル (LMM) で段階的に視覚的推論を進めるための包括的なフレームワークを提案します。
まず、複数ステップの推論タスクを評価するために特別に設計された視覚的推論ベンチマークを紹介します。
このベンチマークは、複雑な視覚認識から、合計 4,000 を超える推論ステップによる科学的推論に至るまで、8 つの異なるカテゴリによる多様な課題を提示し、複数のステップにわたって正確で解釈可能な視覚的推論を実行する LLM の能力の堅牢な評価を可能にします。
次に、正確さと論理的一貫性の両方を強調して、個々のステップの粒度で視覚的推論の品質を評価する新しい指標を提案します。
提案された指標は、従来のエンドタスク精度指標と比較して、推論パフォーマンスに関するより深い洞察を提供します。
3 番目に、LlamaV-o1 という名前の新しいマルチモーダル視覚推論モデルを紹介します。このモデルは、段階的なスキルの習得と問題解決を促進するためにタスクが段階的に編成される、複数ステップのカリキュラム学習アプローチを使用してトレーニングされます。
提案された LlamaV-o1 は、複数ステップの推論用に設計されており、構造化されたトレーニング パラダイムを通じて段階的に学習します。
広範な実験により、当社の LlamaV-o1 は既存のオープンソース モデルを上回り、クローズソースの独自モデルに対して有利に動作することが示されています。
最近の Llava-CoT と比較して、当社の LlamaV-o1 は、6 つのベンチマーク全体で 3.8\% の絶対ゲインで平均スコア 67.3 を達成し、推論スケーリング中に 5 倍高速になりました。
私たちのベンチマーク、モデル、コードは公開されています。
要約(オリジナル)
Reasoning is a fundamental capability for solving complex multi-step problems, particularly in visual contexts where sequential step-wise understanding is essential. Existing approaches lack a comprehensive framework for evaluating visual reasoning and do not emphasize step-wise problem-solving. To this end, we propose a comprehensive framework for advancing step-by-step visual reasoning in large language models (LMMs) through three key contributions. First, we introduce a visual reasoning benchmark specifically designed to evaluate multi-step reasoning tasks. The benchmark presents a diverse set of challenges with eight different categories ranging from complex visual perception to scientific reasoning with over 4k reasoning steps in total, enabling robust evaluation of LLMs’ abilities to perform accurate and interpretable visual reasoning across multiple steps. Second, we propose a novel metric that assesses visual reasoning quality at the granularity of individual steps, emphasizing both correctness and logical coherence. The proposed metric offers deeper insights into reasoning performance compared to traditional end-task accuracy metrics. Third, we present a new multimodal visual reasoning model, named LlamaV-o1, trained using a multi-step curriculum learning approach, where tasks are progressively organized to facilitate incremental skill acquisition and problem-solving. The proposed LlamaV-o1 is designed for multi-step reasoning and learns step-by-step through a structured training paradigm. Extensive experiments show that our LlamaV-o1 outperforms existing open-source models and performs favorably against close-source proprietary models. Compared to the recent Llava-CoT, our LlamaV-o1 achieves an average score of 67.3 with an absolute gain of 3.8\% across six benchmarks while being 5 times faster during inference scaling. Our benchmark, model, and code are publicly available.
arxiv情報
著者 | Omkar Thawakar,Dinura Dissanayake,Ketan More,Ritesh Thawkar,Ahmed Heakl,Noor Ahsan,Yuhao Li,Mohammed Zumri,Jean Lahoud,Rao Muhammad Anwer,Hisham Cholakkal,Ivan Laptev,Mubarak Shah,Fahad Shahbaz Khan,Salman Khan |
発行日 | 2025-01-10 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google