Do LLMs Work on Charts? Designing Few-Shot Prompts for Chart Question Answering and Summarization

要約

最近、チャートの QA や要約など、チャートへの簡単なアクセスを促進するための多くのタスクが提案されています。
これらのタスクを解決するための主要なパラダイムは、タスク データに基づいて事前トレーニングされたモデルを微調整することでした。
ただし、このアプローチはコストがかかるだけでなく、目に見えないタスクに一般化することもできません。
一方、大規模言語モデル (LLM) は、ゼロショットまたは数ショットのプロンプトで、目に見えないタスクに対する優れた一般化機能を示しています。
ただし、これらのタスクには通常、基礎となるデータだけでなく、チャート イメージ内の視覚的特徴も考慮する必要があるため、チャート関連タスクへのこれらのアプリケーションの適用は簡単ではありません。
私たちは、チャート関連アプリケーション向けに LLM を備えたマルチモーダルな少数ショット プロンプト フレームワークである PromptChart を提案します。
タスクを注意深く分析することで、LLM から最高の数ショット パフォーマンスを引き出すための、各タスクに対する一連のプロンプト ガイドラインを考案しました。
さらに、プロンプトに視覚情報を挿入する戦略を提案します。
3 つの異なるチャート関連の情報消費タスクに関する実験では、適切に設計されたプロンプトを使用すると、LLM がベンチマークで優れて最先端の水準を達成できることがわかりました。

要約(オリジナル)

A number of tasks have been proposed recently to facilitate easy access to charts such as chart QA and summarization. The dominant paradigm to solve these tasks has been to fine-tune a pretrained model on the task data. However, this approach is not only expensive but also not generalizable to unseen tasks. On the other hand, large language models (LLMs) have shown impressive generalization capabilities to unseen tasks with zero- or few-shot prompting. However, their application to chart-related tasks is not trivial as these tasks typically involve considering not only the underlying data but also the visual features in the chart image. We propose PromptChart, a multimodal few-shot prompting framework with LLMs for chart-related applications. By analyzing the tasks carefully, we have come up with a set of prompting guidelines for each task to elicit the best few-shot performance from LLMs. We further propose a strategy to inject visual information into the prompts. Our experiments on three different chart-related information consumption tasks show that with properly designed prompts LLMs can excel on the benchmarks, achieving state-of-the-art.

arxiv情報

著者 Xuan Long Do,Mohammad Hassanpour,Ahmed Masry,Parsa Kavehzadeh,Enamul Hoque,Shafiq Joty
発行日 2023-12-17 05:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク