Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model

要約

ビジュアル質問応答 (VQA) は、画像が与えられ、その画像について一連の質問が行われるタスクです。
効率的な VQA アルゴリズムを構築するには、大量の QA データが必要となり、非常に高価になります。
テンプレートに基づいて合成 QA ペアを生成することは、データを取得する実用的な方法です。
ただし、これらのデータに基づいてトレーニングされた VQA モデルは、人間が作成した複雑な質問に対してはうまく機能しません。
この問題に対処するために、私たちは {\it chain of QA for human-writing question} (CoQAH) と呼ばれる新しい方法を提案します。
CoQAH は、大規模な言語モデルと合成データでトレーニングされた VQA モデルの間の一連の QA 対話を利用して、人間が書いた質問に対する論理的な回答を推論して導き出します。
私たちは、3D レンダリング画像と胸部 X 線画像用に人が作成した 2 種類の VQA データセットで CoQAH の有効性をテストし、両方の種類のデータで最先端の精度を達成できることを確認しました。
特に、CoQAH は、微調整を行わない場合でも、一般的な視覚言語モデル、VQA モデル、医療基礎モデルを上回りました。

要約(オリジナル)

Visual question answering (VQA) is a task where an image is given, and a series of questions are asked about the image. To build an efficient VQA algorithm, a large amount of QA data is required which is very expensive. Generating synthetic QA pairs based on templates is a practical way to obtain data. However, VQA models trained on those data do not perform well on complex, human-written questions. To address this issue, we propose a new method called {\it chain of QA for human-written questions} (CoQAH). CoQAH utilizes a sequence of QA interactions between a large language model and a VQA model trained on synthetic data to reason and derive logical answers for human-written questions. We tested the effectiveness of CoQAH on two types of human-written VQA datasets for 3D-rendered and chest X-ray images and found that it achieved state-of-the-art accuracy in both types of data. Notably, CoQAH outperformed general vision-language models, VQA models, and medical foundation models with no finetuning.

arxiv情報

著者 Taehee Kim,Yeongjae Cho,Heejun Shin,Yohan Jo,Dongmyung Shin
発行日 2024-08-22 16:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク