StackOverflowVQA: Stack Overflow Visual Question Answering Dataset

要約

近年、人々はさまざまなトピックについて質問することで、問題の解決を支援するために AI を活用することが増えています。
これらのトピックの 1 つは、ソフトウェア関連やプログラミングに関する質問です。
このワークでは、問題自体に加えてイメージの理解を必要とする問題に焦点を当てます。
StackOverflowVQA データセットを紹介します。これには、1 つ以上の画像を伴う StackOverflow からの質問が含まれています。
これは、ソフトウェア関連の質問に焦点を当て、人間が生成した複数の全文回答を含む初の VQA データセットです。
さらに、GIT モデルを使用して、導入されたデータセット内の画像に関する質問に答えるためのベースラインを提供します。
データセットのすべてのバージョンは https://huggingface.co/mirzaei2114 で入手できます。

要約(オリジナル)

In recent years, people have increasingly used AI to help them with their problems by asking questions on different topics. One of these topics can be software-related and programming questions. In this work, we focus on the questions which need the understanding of images in addition to the question itself. We introduce the StackOverflowVQA dataset, which includes questions from StackOverflow that have one or more accompanying images. This is the first VQA dataset that focuses on software-related questions and contains multiple human-generated full-sentence answers. Additionally, we provide a baseline for answering the questions with respect to images in the introduced dataset using the GIT model. All versions of the dataset are available at https://huggingface.co/mirzaei2114.

arxiv情報

著者 Motahhare Mirzaei,Mohammad Javad Pirhadi,Sauleh Eetemadi
発行日 2024-05-17 12:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク