Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

要約

チェーンオブサブ(COT)の推論により、マルチモーダル大手言語モデル(MLLM)の解釈可能性と問題解決能力が大幅に向上します。
ただし、既存のアプローチはテキストベッドに焦点を当てており、視覚的な手がかりを活用する能力を制限しています。
視覚的なCOTは未定であり、唯一の作業は、広範なラベル付けされた境界ボックスデータに依存しており、目に見えないケースに一般化するのが難しい、監視された微調整(SFT)に基づいています。
このペーパーでは、優先最適化による画像レベルのCOT推論の新しいフレームワークである監視されていないVisual Cot(UV-COT)を紹介します。
UV-COTは、モデル生成の境界ボックス間の好みの比較を実行し(1つが推奨され、もう1つは拒否されます)。
自動データ生成パイプラインを導入することにより、このような選好データを取得します。
画像が与えられた場合、ターゲットMLLM(例:LLAVA-1.5-7B)は、テンプレートプロンプトを使用してシード境界ボックスを生成し、入力として各境界領域を使用して質問に答えます。
評価者MLLM(例:Omnillm-12B)は回答をランク付けし、これらのランキングは、負の対数尤度損失を最小化することにより、UV-COTでターゲットMLLMを訓練するための監督として機能します。
主要な領域を識別し、それらに基づいた推論を識別することにより、UV-COTは、特にテキストの説明だけが不足している空間的推論タスクで視覚的理解を改善できます。
6つのデータセットでの実験は、最先端のテキストおよび視覚的なCOT方法と比較して、UV-COTの優位性を示しています。
4つの目に見えないデータセットでのゼロショットテストは、UV-COTの強力な一般化を示しています。
このコードは、https://github.com/kesenzhao/uv-cotで入手できます。

要約(オリジナル)

Chain-of-thought (CoT) reasoning greatly improves the interpretability and problem-solving abilities of multimodal large language models (MLLMs). However, existing approaches are focused on text CoT, limiting their ability to leverage visual cues. Visual CoT remains underexplored, and the only work is based on supervised fine-tuning (SFT) that relies on extensive labeled bounding-box data and is hard to generalize to unseen cases. In this paper, we introduce Unsupervised Visual CoT (UV-CoT), a novel framework for image-level CoT reasoning via preference optimization. UV-CoT performs preference comparisons between model-generated bounding boxes (one is preferred and the other is dis-preferred), eliminating the need for bounding-box annotations. We get such preference data by introducing an automatic data generation pipeline. Given an image, our target MLLM (e.g., LLaVA-1.5-7B) generates seed bounding boxes using a template prompt and then answers the question using each bounded region as input. An evaluator MLLM (e.g., OmniLLM-12B) ranks the responses, and these rankings serve as supervision to train the target MLLM with UV-CoT by minimizing negative log-likelihood losses. By emulating human perception–identifying key regions and reasoning based on them–UV-CoT can improve visual comprehension, particularly in spatial reasoning tasks where textual descriptions alone fall short. Our experiments on six datasets demonstrate the superiority of UV-CoT, compared to the state-of-the-art textual and visual CoT methods. Our zero-shot testing on four unseen datasets shows the strong generalization of UV-CoT. The code is available in https://github.com/kesenzhao/UV-CoT.

arxiv情報

著者 Kesen Zhao,Beier Zhu,Qianru Sun,Hanwang Zhang
発行日 2025-04-25 14:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク