Multi-VQG: Generating Engaging Questions for Multiple Images

要約

魅力的なコンテンツの生成は、NLP コミュニティで最近注目を集めています。
質問をすることは、写真に返信して意識を高めるための自然な方法です。
ただし、従来の質問応答 (QA) データセットの質問に対する回答のほとんどはファクトイドであり、個人の回答意欲を低下させます。
さらに、従来の視覚的質問生成 (VQG) は、質問生成のソース データを単一の画像に限定するため、基になるイベントの時系列情報を理解する能力が制限されます。
この論文では、複数の画像から魅力的な質問を生成することを提案します。
新しいデータセットである MVQG を提示し、エンドツーエンドおよびデュアルステージ アーキテクチャの両方を含む一連のベースラインを確立します。
結果は、画像シーケンスの背後にあるストーリーを構築することで、モデルが魅力的な質問を生成できることを示しています。
これらの結果は、一連の写真の背後にあるストーリーを暗黙のうちに構築して、創造性と経験の共有を可能にし、下流のアプリケーションに注目を集めるための、視覚と言語のモデルに対するエキサイティングな課題を開きます。

要約(オリジナル)

Generating engaging content has drawn much recent attention in the NLP community. Asking questions is a natural way to respond to photos and promote awareness. However, most answers to questions in traditional question-answering (QA) datasets are factoids, which reduce individuals’ willingness to answer. Furthermore, traditional visual question generation (VQG) confines the source data for question generation to single images, resulting in a limited ability to comprehend time-series information of the underlying event. In this paper, we propose generating engaging questions from multiple images. We present MVQG, a new dataset, and establish a series of baselines, including both end-to-end and dual-stage architectures. Results show that building stories behind the image sequence enables models to generate engaging questions, which confirms our assumption that people typically construct a picture of the event in their minds before asking questions. These results open up an exciting challenge for visual-and-language models to implicitly construct a story behind a series of photos to allow for creativity and experience sharing and hence draw attention to downstream applications.

arxiv情報

著者 Min-Hsuan Yeh,Vicent Chen,Ting-Hao,Haung,Lun-Wei Ku
発行日 2022-11-14 15:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク