Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets

要約

視覚的質問生成(Visual Question Generation: VQG)として知られる、視覚シーンからの自然言語質問生成は、近年、綿密にラベル付けされた大量のデータが学習コーパスとして提供され、研究されてきた。しかし、実際には、数種類の回答に対応する質問注釈を持つ画像は数枚しかないことが珍しくない。本論文では、新しい課題であるFew-Shot Visual Question Generation (FS-VQG) タスクを提案し、それに対する包括的なベンチマークを提供する。具体的には、既存の様々なVQGアプローチと、FS-VQGタスクのためのメタ学習と自己教師付き戦略に基づく人気のある数撃ちゃ当たるのソリューションを評価する。我々は2つの有名な既存データセットVQGとVisual7wで実験を行う。さらに、VQGデータセットに画像-質問ペアと回答カテゴリを追加し、数撃ちゃ当たるのシナリオで使用できるように整理・拡張を行った。この新しいデータセットをVQG-23と呼ぶ。我々の実験からいくつかの重要な知見が得られ、少数ショットビジョンと言語生成タスクにおける現在のモデルの限界に光を当てることができた。我々は、転送学習やメタ学習を用いて既存のVQGアプローチを単純に拡張するだけでは、少数ショットVQGに固有の課題に取り組むには十分でない可能性があることを見いだしました。本研究は、少数点学習研究の進展を加速させることに貢献すると考えている。

要約(オリジナル)

Generating natural language questions from visual scenes, known as Visual Question Generation (VQG), has been explored in the recent past where large amounts of meticulously labeled data provide the training corpus. However, in practice, it is not uncommon to have only a few images with question annotations corresponding to a few types of answers. In this paper, we propose a new and challenging Few-Shot Visual Question Generation (FS-VQG) task and provide a comprehensive benchmark to it. Specifically, we evaluate various existing VQG approaches as well as popular few-shot solutions based on meta-learning and self-supervised strategies for the FS-VQG task. We conduct experiments on two popular existing datasets VQG and Visual7w. In addition, we have also cleaned and extended the VQG dataset for use in a few-shot scenario, with additional image-question pairs as well as additional answer categories. We call this new dataset VQG-23. Several important findings emerge from our experiments, that shed light on the limits of current models in few-shot vision and language generation tasks. We find that trivially extending existing VQG approaches with transfer learning or meta-learning may not be enough to tackle the inherent challenges in few-shot VQG. We believe that this work will contribute to accelerating the progress in few-shot learning research.

arxiv情報

著者 Anurag Roy,David Johnson Ekka,Saptarshi Ghosh,Abir Das
発行日 2023-01-06 16:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク