LLaVA-o1: Let Vision Language Models Reason Step-by-Step

要約

OpenAI の o1 などのモデルに示されているように、大規模な言語モデルでは、特に推論時間のスケーリングを通じて推論機能が大幅に進歩していることが実証されています。
ただし、現在の視覚言語モデル (VLM) は、特に複雑な視覚的な質問応答タスクを処理する場合、体系的かつ構造化された推論を実行するのに苦労することがよくあります。
この研究では、自律的な多段階推論を実行するように設計された新しい VLM である LLaVA-o1 を紹介します。
思考連鎖によるプロンプトとは異なり、LLaVA-o1 は要約、視覚的解釈、論理的推論、結論の生成という一連の段階を独立して実行します。
この構造化されたアプローチにより、LLaVA-o1 は推論集中型タスクの精度を大幅に向上させることができます。
これを達成するために、LLaVA-o1-100k データセットをコンパイルし、さまざまな視覚的質問回答ソースからのサンプルを統合し、構造化推論のアノテーションを提供します。
さらに、効果的な推論時間スケーリングを可能にする推論時間ステージレベルのビーム探索方法を提案します。
注目すべきことに、LLaVA-o1 は、わずか 100,000 のトレーニング サンプルと、シンプルかつ効果的な推論時間スケーリング手法を備えているため、幅広いマルチモーダル推論ベンチマークで基本モデルを 8.9% 上回るパフォーマンスを発揮するだけでなく、より大規模でクローズド ソースのパフォーマンスさえも上回ります。
Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instruct などのモデル。

要約(オリジナル)

Large language models have demonstrated substantial advancements in reasoning capabilities, particularly through inference-time scaling, as illustrated by models such as OpenAI’s o1. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-o1, a novel VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought prompting, LLaVA-o1 independently engages in sequential stages of summarization, visual interpretation, logical reasoning, and conclusion generation. This structured approach enables LLaVA-o1 to achieve marked improvements in precision on reasoning-intensive tasks. To accomplish this, we compile the LLaVA-o1-100k dataset, integrating samples from various visual question answering sources and providing structured reasoning annotations. Besides, we propose an inference-time stage-level beam search method, which enables effective inference-time scaling. Remarkably, with only 100k training samples and a simple yet effective inference time scaling method, LLaVA-o1 not only outperforms its base model by 8.9% on a wide range of multimodal reasoning benchmarks, but also surpasses the performance of larger and even closed-source models, such as Gemini-1.5-pro, GPT-4o-mini, and Llama-3.2-90B-Vision-Instruct.

arxiv情報

著者 Guowei Xu,Peng Jin,Li Hao,Yibing Song,Lichao Sun,Li Yuan
発行日 2024-11-15 18:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク