DePlot: One-shot visual language reasoning by plot-to-table translation

要約

チャートやプロットなどの視覚言語は、人間の世界に遍在しています。
プロットとチャートを理解するには、強力な推論スキルが必要です。
以前の最先端 (SOTA) モデルでは、少なくとも数万のトレーニング例が必要であり、その推論機能は、特に人間が作成した複雑なクエリでは依然として非常に限られています。
この論文は、視覚的言語推論に対する最初のワンショットソリューションを提示します。
視覚的言語推論の課題を、(1) プロットからテキストへの翻訳、および (2) 翻訳されたテキストに対する推論の 2 つのステップに分解します。
この方法の鍵は、プロットまたはチャートの画像を線形化されたテーブルに変換する、DePlot と呼ばれるモダリティ変換モジュールです。
次に、DePlot の出力を直接使用して、事前トレーニング済みの大規模言語モデル (LLM) を促し、LLM の少数ショット推論機能を活用できます。
DePlot を取得するために、統一されたタスク形式とメトリクスを確立することでプロットからテーブルへのタスクを標準化し、このタスクで DePlot をエンドツーエンドでトレーニングします。
その後、DePlot はプラグアンドプレイ方式で LLM と一緒に既製品で使用できます。
28,000 以上のデータ ポイントで微調整された SOTA モデルと比較して、ワンショット プロンプトのみを使用した DePlot+LLM は、チャート QA のタスクから人間が作成したクエリで微調整された SOTA よりも 24.0% の改善を達成します。

要約(オリジナル)

Visual language such as charts and plots is ubiquitous in the human world. Comprehending plots and charts requires strong reasoning skills. Prior state-of-the-art (SOTA) models require at least tens of thousands of training examples and their reasoning capabilities are still much limited, especially on complex human-written queries. This paper presents the first one-shot solution to visual language reasoning. We decompose the challenge of visual language reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over the translated text. The key in this method is a modality conversion module, named as DePlot, which translates the image of a plot or chart to a linearized table. The output of DePlot can then be directly used to prompt a pretrained large language model (LLM), exploiting the few-shot reasoning capabilities of LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing unified task formats and metrics, and train DePlot end-to-end on this task. DePlot can then be used off-the-shelf together with LLMs in a plug-and-play fashion. Compared with a SOTA model finetuned on more than >28k data points, DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over finetuned SOTA on human-written queries from the task of chart QA.

arxiv情報

著者 Fangyu Liu,Julian Martin Eisenschlos,Francesco Piccinno,Syrine Krichene,Chenxi Pang,Kenton Lee,Mandar Joshi,Wenhu Chen,Nigel Collier,Yasemin Altun
発行日 2022-12-20 18:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク