要約
Visual Question Answering (VQA) では、画像に関する質問に回答します。
すべてのコンテンツが本物のユースケースに由来する最初の VQA データセットを紹介します。
オンラインの質問応答コミュニティ フォーラムをソースとしており、私たちはこれを VQAonline と呼んでいます。
次に、データセットを特徴づけ、それが他の 8 つの VQA データセットとどのように関連するかを評価します。
データセット内の回答は非常に長くなる傾向があり (たとえば、平均 173 単語)、標準的な VQA 評価指標と互換性がないことを観察して、次に、長文の評価によく使用される 6 つの指標のうちどれが人間の判断と最もよく一致するかを分析します。
次に、最適な指標を使用して、VQAonline 上の 6 つの最先端のビジョンおよび言語基盤モデルを評価し、最も困難な部分を明らかにします。
データセットは https://vqaonline.github.io/ で公開されています。
要約(オリジナル)
Visual Question Answering (VQA) entails answering questions about images. We introduce the first VQA dataset in which all contents originate from an authentic use case. Sourced from online question answering community forums, we call it VQAonline. We then characterize our dataset and how it relates to eight other VQA datasets. Observing that answers in our dataset tend to be much longer (e.g., with a mean of 173 words) and thus incompatible with standard VQA evaluation metrics, we next analyze which of the six popular metrics for longer text evaluation align best with human judgments. We then use the best-suited metrics to evaluate six state-of-the-art vision and language foundation models on VQAonline and reveal where they struggle most. The dataset can be found publicly at https://vqaonline.github.io/.
arxiv情報
| 著者 | Chongyan Chen,Mengchen Liu,Noel Codella,Yunsheng Li,Lu Yuan,Danna Gurari |
| 発行日 | 2023-12-29 14:18:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google