要約
ビジュアル質問応答 (VQA) は、画像が与えられ、その画像について一連の質問が行われるタスクです。
効率的な VQA アルゴリズムを構築するには、大量の QA データが必要となり、非常に高価になります。
テンプレートに基づいて合成 QA ペアを生成することは、データを取得する実用的な方法です。
ただし、これらのデータに基づいてトレーニングされた VQA モデルは、人間が作成した複雑な質問に対してはうまく機能しません。
この問題に対処するために、私たちは {\it chain of QA for human-writing question} (CoQAH) と呼ばれる新しい方法を提案します。
CoQAH は、大規模な言語モデルと合成データでトレーニングされた VQA モデルの間の一連の QA 対話を利用して、人間が書いた質問に対する論理的な回答を推論して導き出します。
私たちは、3D レンダリング画像と胸部 X 線画像用に人が作成した 2 種類の VQA データセットで CoQAH の有効性をテストし、両方の種類のデータで最先端の精度を達成できることを確認しました。
特に、CoQAH は、微調整を行わない場合でも、一般的な視覚言語モデル、VQA モデル、医療基礎モデルを上回りました。
要約(オリジナル)
Visual question answering (VQA) is a task where an image is given, and a series of questions are asked about the image. To build an efficient VQA algorithm, a large amount of QA data is required which is very expensive. Generating synthetic QA pairs based on templates is a practical way to obtain data. However, VQA models trained on those data do not perform well on complex, human-written questions. To address this issue, we propose a new method called {\it chain of QA for human-written questions} (CoQAH). CoQAH utilizes a sequence of QA interactions between a large language model and a VQA model trained on synthetic data to reason and derive logical answers for human-written questions. We tested the effectiveness of CoQAH on two types of human-written VQA datasets for 3D-rendered and chest X-ray images and found that it achieved state-of-the-art accuracy in both types of data. Notably, CoQAH outperformed general vision-language models, VQA models, and medical foundation models with no finetuning.
arxiv情報
著者 | Taehee Kim,Yeongjae Cho,Heejun Shin,Yohan Jo,Dongmyung Shin |
発行日 | 2024-01-16 06:01:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google