Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

要約

ビジョン言語モデル (VLM) は、マルチモーダル タスクでますます強力なパフォーマンスを達成しています。
ただし、大規模言語モデル (LLM) の推論機能は数多くの改善が見られますが、特に小規模な VLM では推論機能が依然として制限されています。
私たちは、LLM から VLM に機能を転送する手法を提案します。
最近導入された ChartQA では、\citet{chen2023pali3} によって PaLI3-5B VLM に適用されると、私たちのメソッドは最先端のパフォーマンスを実現すると同時に、PlotQA と FigureQA でもはるかに優れたパフォーマンスを実現します。
まず、\citet{liu2023deplot} によるチャートからテーブルへの変換タスクの改良版を使用して事前トレーニング段階を続行し、チャート表現を改善します。
次に、元のトレーニング セットよりも 20 倍大きいデータセットを構築することを提案します。
一般的な推論能力を向上させ、数値演算を改善するために、チャートの表表現を使用して推論トレースを合成します。
最後に、\citet{hsieh2023distilling} によって導入されたマルチタスク損失を使用してモデルを微調整します。
当社のバリアント ChartPaLI-5B は、PaLI3-5B ベースラインと比較して推論時間を一定に保ちながら、上流の OCR システムを使用しなくても、PaLIX-55B などの 10 倍大きいモデルよりも優れたパフォーマンスを発揮します。
シンプルな思考プログラムのプロンプト \cite{chen2023program} を使用して理論的根拠をさらに洗練すると、私たちのモデルは最近導入された Gemini Ultra や GPT-4V よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by \citet{chen2023pali3}, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by \citet{liu2023deplot}. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by \citet{hsieh2023distilling}. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt \cite{chen2023program}, our model outperforms the recently introduced Gemini Ultra and GPT-4V.

arxiv情報

著者 Victor Carbune,Hassan Mansoor,Fangyu Liu,Rahul Aralikatte,Gilles Baechler,Jindong Chen,Abhanshu Sharma
発行日 2024-03-19 10:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク