Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models

要約

視覚言語モデル (VLM) は、視覚コンテンツに関する自然なクエリを解析し、人間のような出力を生成できる視覚アシスタントとしての強力な有効性を最近実証しました。
この研究では、知覚された情報に基づいて人間のような推論を実証するこれらのモデルの能力を調査します。
推論能力がどの程度完全に一貫性があり、根拠があるかという重大な懸念に対処するために、これらのモデルの推論の一貫性も測定します。
私たちは、思考連鎖 (CoT) ベースの一貫性尺度を提案することでこれを実現します。
ただし、そのような評価には、高レベルの推論と詳細な推論チェーンの両方を網羅するベンチマークが必要であり、コストがかかります。
私たちは、LLM-Human-in-the-Loop パイプラインを提案することでこの課題に取り組みます。これにより、コストが大幅に削減され、同時に高品質のデータセットの生成が保証されます。
このパイプラインと既存の粗粒度のアノテーション付きデータセットに基づいて、ゼロショット推論のパフォーマンスと VLM の一貫性の両方を測定する CURE ベンチマークを構築します。
既存の最先端の VLM を評価したところ、最も優れたパフォーマンスのモデルであっても、強力な視覚的推論機能と一貫性を実証できないことがわかりました。これは、VLM が視覚的推論を体系的かつ一貫して実行できるようにするには、多大な努力が必要であることを示しています。
人間。
初期のステップとして、VLM の推論パフォーマンスと一貫性の両方を向上させることを目的とした 2 段階のトレーニング フレームワークを提案します。
最初の段階では、LLM によって自動的に生成された段階的な推論サンプルを使用して、VLM の教師付き微調整を採用します。
第 2 段階では、LLM から提供されるフィードバックを組み込んでトレーニング プロセスをさらに強化し、一貫性が高く根拠のある推論チェーンを生成します。
私たちは、推論のパフォーマンスと一貫性の両方におけるフレームワークの有効性を経験的に強調しています。

要約(オリジナル)

Vision-language models (VLMs) have recently demonstrated strong efficacy as visual assistants that can parse natural queries about the visual content and generate human-like outputs. In this work, we explore the ability of these models to demonstrate human-like reasoning based on the perceived information. To address a crucial concern regarding the extent to which their reasoning capabilities are fully consistent and grounded, we also measure the reasoning consistency of these models. We achieve this by proposing a chain-of-thought (CoT) based consistency measure. However, such an evaluation requires a benchmark that encompasses both high-level inference and detailed reasoning chains, which is costly. We tackle this challenge by proposing a LLM-Human-in-the-Loop pipeline, which notably reduces cost while simultaneously ensuring the generation of a high-quality dataset. Based on this pipeline and the existing coarse-grained annotated dataset, we build the CURE benchmark to measure both the zero-shot reasoning performance and consistency of VLMs. We evaluate existing state-of-the-art VLMs, and find that even the best-performing model is unable to demonstrate strong visual reasoning capabilities and consistency, indicating that substantial efforts are required to enable VLMs to perform visual reasoning as systematically and consistently as humans. As an early step, we propose a two-stage training framework aimed at improving both the reasoning performance and consistency of VLMs. The first stage involves employing supervised fine-tuning of VLMs using step-by-step reasoning samples automatically generated by LLMs. In the second stage, we further augment the training process by incorporating feedback provided by LLMs to produce reasoning chains that are highly consistent and grounded. We empirically highlight the effectiveness of our framework in both reasoning performance and consistency.

arxiv情報

著者 Yangyi Chen,Karan Sikka,Michael Cogswell,Heng Ji,Ajay Divakaran
発行日 2023-09-08 17:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク