R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

要約

大規模な言語モデルは、複雑なテキストタスクで顕著な推論能力を示しています。
ただし、視覚情報とテキスト情報を統合する必要があるマルチモーダル推論は、依然として重要な課題です。
既存の視覚言語モデルは、視覚コンテンツを効果的に分析し、推論するのに苦労していることが多く、複雑な推論タスクで最適ではないパフォーマンスをもたらします。
さらに、包括的なベンチマークがないことは、マルチモーダル推論能力の正確な評価を妨げます。
この論文では、視覚的知覚と深い推論の間のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-OneVisionを紹介します。
これを達成するために、画像を正式なテクスチャー表現に変換するクロスモーダル推論パイプラインを提案し、正確な言語ベースの推論を可能にします。
このパイプラインを活用すると、R1-OneVision Datasetを構築します。これにより、多様なドメイン全体で詳細な段階的なマルチモーダル推論注釈が提供されます。
さらに、高度な推論と堅牢な一般化能力を育成するための監視された微調整と強化学習を通じて、R1-OneVisionモデルをさらに開発します。
さまざまなグレードにわたってマルチモーダル推論パフォーマンスを包括的に評価するために、中学校から大学までの試験をカバーする人間の教育段階に沿ったベンチマークであるR1-OneVision-Benchを紹介します。
実験結果は、R1-OneVisionが、複数の挑戦的なマルチモーダル推論ベンチマークでGPT-4OやQWEN2.5-VLなどの最先端のパフォーマンス、アウトパフォーマンスモデルを達成することを示しています。

要約(オリジナル)

Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

arxiv情報

著者 Yi Yang,Xiaoxuan He,Hongkun Pan,Xiyan Jiang,Yan Deng,Xingtao Yang,Haoyu Lu,Dacheng Yin,Fengyun Rao,Minfeng Zhu,Bo Zhang,Wei Chen
発行日 2025-03-13 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク