DOMINO: A Dual-System for Multi-step Visual Language Reasoning

要約

視覚言語による推論には、チャートやプロットなどの情報が豊富な画像からテキストや数値を抽出し、論理的推論または算術推論を実行して答えに到達するシステムが必要です。
このタスクに取り組むために、既存の研究は、(1) 大量のデータでトレーニングされたエンドツーエンドのビジョン言語モデル、または (2) キャプション モデルが画像をテキストに変換する 2 段階のパイプラインのいずれかに依存しています。
答えを推定するために、別の大規模な言語モデルによってさらに読み取られます。
ただし、前者のアプローチでは、複雑な質問に 1 ステップで回答するようモデルに強制されます。また、後者のアプローチでは、変換されたテキストに不正確な情報や気が散る情報が含まれる傾向があり、言語モデルを混乱させる可能性があります。
この研究では、視覚情報抽出のための「システム-1」ステップと意図的推論のための「システム-2」ステップから構成される、マルチステップマルチモーダル推論のためのデュアルシステムを提案します。
入力が与えられると、システム 2 は質問を原子的なサブステップに分割し、各サブステップがシステム 1 を導き、推論に必要な情報を画像から抽出します。
チャートとプロットのデータセットに関する実験では、事前トレーニング済みの System-2 モジュールを使用した私たちの方法が、分布内および分布外のデータに対する以前の作業と比較して競合的に実行されることが示されています。
多段階推論に関する少量のデータのみで System-2 モジュール (LLaMA-2 70B) を微調整することにより、私たちの方法の精度はさらに向上し、完全に監視された最高のエンドツーエンド アプローチを上回ります。
人間が作成した質問を含む難しいデータセットに対する FlanPaLM (540B) によるパイプライン アプローチは 5.7% で、7.5% でした。

要約(オリジナル)

Visual language reasoning requires a system to extract text or numbers from information-dense images like charts or plots and perform logical or arithmetic reasoning to arrive at an answer. To tackle this task, existing work relies on either (1) an end-to-end vision-language model trained on a large amount of data, or (2) a two-stage pipeline where a captioning model converts the image into text that is further read by another large language model to deduce the answer. However, the former approach forces the model to answer a complex question with one single step, and the latter approach is prone to inaccurate or distracting information in the converted text that can confuse the language model. In this work, we propose a dual-system for multi-step multimodal reasoning, which consists of a ‘System-1’ step for visual information extraction and a ‘System-2’ step for deliberate reasoning. Given an input, System-2 breaks down the question into atomic sub-steps, each guiding System-1 to extract the information required for reasoning from the image. Experiments on chart and plot datasets show that our method with a pre-trained System-2 module performs competitively compared to prior work on in- and out-of-distribution data. By fine-tuning the System-2 module (LLaMA-2 70B) on only a small amount of data on multi-step reasoning, the accuracy of our method is further improved and surpasses the best fully-supervised end-to-end approach by 5.7% and a pipeline approach with FlanPaLM (540B) by 7.5% on a challenging dataset with human-authored questions.

arxiv情報

著者 Peifang Wang,Olga Golovneva,Armen Aghajanyan,Xiang Ren,Muhao Chen,Asli Celikyilmaz,Maryam Fazel-Zarandi
発行日 2023-10-04 13:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク