Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets

要約

Visual Question Generation (VQG) として知られる視覚的なシーンから自然言語の質問を生成することは、最近、綿密にラベル付けされた大量のデータがトレーニングコーパスを提供することで調査されました。
ただし、実際には、いくつかのタイプの回答に対応する質問の注釈が付いた少数の画像しかないことも珍しくありません。
このホワイトペーパーでは、新しい挑戦的なFew-Shot Visual Question Generation(FS-VQG)タスクを提案し、それに包括的なベンチマークを提供します。
具体的には、さまざまな既存の VQG アプローチと、FS-VQG タスクのメタ学習および自己教師あり戦略に基づく一般的な少数ショット ソリューションを評価します。
2 つの一般的な既存のデータセット VQG と Visual7w で実験を行います。
さらに、追加の画像と質問のペアと追加の回答カテゴリを使用して、少数のショットのシナリオで使用するために VQG データセットをクリーンアップおよび拡張しました。
この新しいデータセットを VQG-23 と呼びます。
私たちの実験から、いくつかの重要な発見が明らかになり、少数ショットのビジョンと言語生成タスクにおける現在のモデルの限界が明らかになりました。
転移学習またはメタ学習を使用して既存の VQG アプローチを自明に拡張するだけでは、少数ショット VQG に固有の課題に取り組むには不十分であることがわかります。
本研究は、数ショット学習研究の進展を加速させることに貢献すると考えています。

要約(オリジナル)

Generating natural language questions from visual scenes, known as Visual Question Generation (VQG), has been explored in the recent past where large amounts of meticulously labeled data provide the training corpus. However, in practice, it is not uncommon to have only a few images with question annotations corresponding to a few types of answers. In this paper, we propose a new and challenging Few-Shot Visual Question Generation (FS-VQG) task and provide a comprehensive benchmark to it. Specifically, we evaluate various existing VQG approaches as well as popular few-shot solutions based on meta-learning and self-supervised strategies for the FS-VQG task. We conduct experiments on two popular existing datasets VQG and Visual7w. In addition, we have also cleaned and extended the VQG dataset for use in a few-shot scenario, with additional image-question pairs as well as additional answer categories. We call this new dataset VQG-23. Several important findings emerge from our experiments, that shed light on the limits of current models in few-shot vision and language generation tasks. We find that trivially extending existing VQG approaches with transfer learning or meta-learning may not be enough to tackle the inherent challenges in few-shot VQG. We believe that this work will contribute to accelerating the progress in few-shot learning research.

arxiv情報

著者 Anurag Roy,David Johnson Ekka,Saptarshi Ghosh,Abir Das
発行日 2022-10-13 15:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク