要約
推論ビジョン言語モデル(VLM)は、複雑なマルチモーダルタスクで有望なパフォーマンスを示しています。
しかし、それらは依然として重要な課題に直面しています。推論エラーに非常に敏感であり、注釈付きデータまたは正確な検証因子を必要とし、特定のドメインを超えて一般化するのに苦労しています。
これらの制限に対処するために、推論VLMを強化する戦略として自己修正を調査します。
最初に、VLMSの自己修正能力を推論している詳細な分析を実施し、重要なギャップを特定します。
調査結果に基づいて、Sherlock、自己修正および自己改善トレーニングフレームワークを紹介します。
Sherlockは、軌道レベルの自己修正目標、視覚的摂動に基づく優先データ構築方法、および優先チューニング用の動的$ \ベータ$を導入します。
モデルがランダムにサンプリングされた注釈付きデータのみを使用して自己修正機能を取得すると、外部の監督なしで自己改善を続けます。
Llama3.2-vision-11bモデルに基づいて構築されたSherlockは、8つのベンチマークで顕著な結果を達成し、直接生成で平均精度が64.1、自己修正後65.4に達します。
注釈付きデータの20%未満を使用しながら、Llava-Cot(63.2)、Mulberry(63.9)、およびLlamav-O1(63.4)よりも優れています。
要約(オリジナル)
Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs’ self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic $\beta$ for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.
arxiv情報
著者 | Yi Ding,Ruqi Zhang |
発行日 | 2025-05-28 17:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google