Multimodal Prompt Retrieval for Generative Visual Question Answering

要約

近年、視覚的質問応答 (VQA) などの知識集約型タスクにおいて、事前トレーニングされた視覚言語モデルの素晴らしい結果が目撃されています。
最近の VQA の進歩にも関わらず、既存の手法は主に、事前に定義されたラベル セット内で回答を予測する判別式を採用しているため、ラベル付きデータが限られている低リソース ドメイン (例: 医薬品) で簡単に過剰学習が発生し、ドメイン シフトの下では一般化が不十分になります。
別のデータセット。
この制限に対処するために、取得したプロンプトとマルチモーダル機能を統合してフリーテキストで回答を生成する、マルチモーダル プロンプト検索 (MPR) によって強化された新しい生成モデルを提案します。
当社の生成モデルにより、目に見えないデータ分布やデータセット全体にわたるオープンセットの回答ラベルへのゼロショット データセットの迅速な適応が可能になります。
医療用 VQA タスクに関する私たちの実験では、MPR が、数ショットのドメイン適応設定において、非検索対応のものよりも最大 30% の精度ポイントで優れていることがわかりました。

要約(オリジナル)

Recent years have witnessed impressive results of pre-trained vision-language models on knowledge-intensive tasks such as visual question answering (VQA). Despite the recent advances in VQA, existing methods mainly adopt a discriminative formulation that predicts answers within a pre-defined label set, leading to easy overfitting on low-resource domains with limited labeled data (e.g., medicine) and poor generalization under domain shift to another dataset. To tackle this limitation, we propose a novel generative model enhanced by multimodal prompt retrieval (MPR) that integrates retrieved prompts and multimodal features to generate answers in free text. Our generative model enables rapid zero-shot dataset adaptation to unseen data distributions and open-set answer labels across datasets. Our experiments on medical VQA tasks show that MPR outperforms its non-retrieval counterpart by up to 30% accuracy points in a few-shot domain adaptation setting.

arxiv情報

著者 Timothy Ossowski,Junjie Hu
発行日 2023-06-30 14:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク