要約
この研究では、学術グラフに関連する合成マルチターン質問応答データセットである SciGraphQA を紹介します。
SciGraphQA は、これまで最大のチャートビジュアル質問応答データセットである ChartVQA の 13 倍の大きさです。
これは、非合成チャートを含む最大のオープンソース チャート VQA データセットでもあります。
データセットを構築するために、2010 年から 2020 年の間に出版されたコンピューター サイエンスまたは機械学習の ArXiv 論文 290,000 件を選択し、Palm-2 を使用してグラフに関するオープンボキャブラリーのマルチターン質問応答ダイアログの 295,000 個のサンプルを生成しました。
コンテキストとして、テキストのみの Palm-2 に論文のタイトル、要約、グラフに言及する段落、およびグラフ自体からのリッチ テキストのコンテキスト データを提供し、グラフごとに平均 2.23 回の質問と回答の対話を取得しました。
私たちは GPT-4 に、論文の文脈を考慮して質問と回答のマッチングの質を評価するよう依頼し、3K テスト セットで 8.7/10 の平均評価を得ました。
データセット上で LLaVa、mPLUGowl、BLIP-2、openFlamingo などの最も人気のある MLLM モデルのゼロショット機能を評価したところ、LLaVA-13B が CIDEr スコア 0.08 で最もパフォーマンスが高いことがわかりました。
DePlot モデルを使用してグラフから抽出されたシリアル化されたデータ テーブルを含めることで、LLavA の質問プロンプトをさらに強化し、LLaVA の 0 ショット CIDEr を 0.15 に引き上げました。
データセットの有効性を検証するために、データセットを使用して LLaVa を微調整し、大幅に高い CIDEr スコア 0.26 に達しました。
セグメンテーション マスク トークンを組み込み、緊急プロンプト技術と組み合わせた大規模な LLM バックボーンを活用することで、さらなる精度の向上が期待されます。
私たちのコードとデータはオープンソースです。
要約(オリジナル)
In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper’s context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo’s on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA’s 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.
arxiv情報
著者 | Shengzhi Li,Nima Tajbakhsh |
発行日 | 2023-08-07 07:03:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google