Toloka Visual Question Answering Benchmark


このペーパーでは、基礎的な視覚的質問応答タスクにおける機械学習システムのパフォーマンスと人間の専門知識レベルを比較できる新しいクラウドソース データセットである Toloka Visual Question Answering を紹介します。
すべての画像と質問のペアには回答が含まれており、画像ごとに正解は 1 つだけです。
私たちのデータセットには、グラウンド トゥルース境界ボックスを備えた 45,199 組の画像と英語の質問が含まれており、トレイン サブセットと 2 つのテスト サブセットに分割されています。
データセットを説明し、CC BY ライセンスに基づいてリリースすることに加えて、オープンソースのゼロショット ベースライン モデルで一連の実験を実施し、世界中から 48 人の参加者を集めた WSDM カップでマルチフェーズ コンテストを開催しました。


In this paper, we present Toloka Visual Question Answering, a new crowdsourced dataset allowing comparing performance of machine learning systems against human level of expertise in the grounding visual question answering task. In this task, given an image and a textual question, one has to draw the bounding box around the object correctly responding to that question. Every image-question pair contains the response, with only one correct response per image. Our dataset contains 45,199 pairs of images and questions in English, provided with ground truth bounding boxes, split into train and two test subsets. Besides describing the dataset and releasing it under a CC BY license, we conducted a series of experiments on open source zero-shot baseline models and organized a multi-phase competition at WSDM Cup that attracted 48 participants worldwide. However, by the time of paper submission, no machine learning model outperformed the non-expert crowdsourcing baseline according to the intersection over union evaluation score.


著者 Dmitry Ustalov,Nikita Pavlichenko,Sergey Koshelev,Daniil Likhobaba,Alisa Smirnova
発行日 2023-09-28 15:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68-11, C.4, cs.AI, cs.CL, cs.CV, cs.HC パーマリンク