From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

要約

ビジョン言語モデル (VLM) における複数ステップの推論を探索します。
視覚処理と言語処理の複数のステップからなる推論データがほとんど入手できないため、この問題は困難です。
この課題を克服するために、まず、質問をサブ質問に分解し、サブ質問を解決するための外部ツールを呼び出すステップをインターリーブする、最小から最大への視覚推論パラダイムを導入します。
このパラダイムに基づいて、ボトムアップ方式で画像に対する質問と複数ステップの推論パスを自動的に作成できる新しいデータ合成アプローチをさらに提案します。
私たちのアプローチでは、複雑な合成タスクをいくつかの単純なサブタスクに分割し、(ほぼ完全に) オープンソース モデルに依存してサブタスクを実行します。
したがって、合成プロセス全体が再現可能でコスト効率が高く、合成データの品質が保証されます。
このアプローチにより、$50$k の視覚的推論の例を構築します。
次に、教師あり微調整を通じて、プラグアンドプレイ方式で既存のさまざまな VLM の推論能力を全般的に強化できるビジュアル推論器を開発します。
広範な実験により、ビジュアル リーズナーが 4 つの VQA ベンチマークで 4 つの VLM を一貫して大幅に改善できることが示されました。
コードとデータセットは https://github.com/steven-ccq/VisualReasoner で入手できます。

要約(オリジナル)

We explore multi-step reasoning in vision-language models (VLMs). The problem is challenging, as reasoning data consisting of multiple steps of visual and language processing are barely available. To overcome the challenge, we first introduce a least-to-most visual reasoning paradigm, which interleaves steps of decomposing a question into sub-questions and invoking external tools for resolving sub-questions. Based on the paradigm, we further propose a novel data synthesis approach that can automatically create questions and multi-step reasoning paths for an image in a bottom-up manner. Our approach divides the complex synthesis task into a few simple sub-tasks, and (almost entirely) relies on open-sourced models to accomplish the sub-tasks. Therefore, the entire synthesis process is reproducible and cost-efficient, and the synthesized data is quality guaranteed. With the approach, we construct $50$k visual reasoning examples. Then, we develop a visual reasoner through supervised fine-tuning, which is capable of generally enhancing the reasoning abilities of a wide range of existing VLMs in a plug-and-play fashion. Extensive experiments indicate that the visual reasoner can consistently and significantly improve four VLMs on four VQA benchmarks. Our code and dataset are available at https://github.com/steven-ccq/VisualReasoner.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2024-10-11 15:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク