Multi-VQG: Generating Engaging Questions for Multiple Images


魅力的なコンテンツの生成は、NLP コミュニティで最近注目を集めています。
ただし、従来の質問応答 (QA) データセットの質問に対する回答のほとんどはファクトイドであり、個人の回答意欲を低下させます。
さらに、従来の視覚的質問生成 (VQG) は、質問生成のソース データを単一の画像に限定するため、基になるイベントの時系列情報を理解する能力が制限されます。
新しいデータセットである MVQG を提示し、エンドツーエンドおよびデュアルステージ アーキテクチャの両方を含む一連のベースラインを確立します。


Generating engaging content has drawn much recent attention in the NLP community. Asking questions is a natural way to respond to photos and promote awareness. However, most answers to questions in traditional question-answering (QA) datasets are factoids, which reduce individuals’ willingness to answer. Furthermore, traditional visual question generation (VQG) confines the source data for question generation to single images, resulting in a limited ability to comprehend time-series information of the underlying event. In this paper, we propose generating engaging questions from multiple images. We present MVQG, a new dataset, and establish a series of baselines, including both end-to-end and dual-stage architectures. Results show that building stories behind the image sequence enables models to generate engaging questions, which confirms our assumption that people typically construct a picture of the event in their minds before asking questions. These results open up an exciting challenge for visual-and-language models to implicitly construct a story behind a series of photos to allow for creativity and experience sharing and hence draw attention to downstream applications.


著者 Min-Hsuan Yeh,Vicent Chen,Ting-Hao,Haung,Lun-Wei Ku
発行日 2022-11-14 15:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク