VLSP2022-EVJVQA Challenge: Multilingual Visual Question Answering

要約

タイトル:VLSP2022-EVJVQA Challenge:多言語ビジュアル質問応答

要約:
– ビジュアル質問応答は、自然言語処理(NLP)とコンピュータビジョン(CV)の難しいタスクであり、研究者の注目を集めている。
– 資源豊富な英語には、ビジュアル質問応答のデータセットやモデルの開発が見られる一方で、他の言語におけるビジュアル質問応答の開発は資源とモデルが不足し問題となっている。
– 特定の国のビジュアルコンテンツや文化的特徴に焦点を当てた多言語データセットは存在しないため、EVJVQAという3つの言語(ベトナム語、英語、日本語)で約33,000の質問と回答を含むベトナムからの約5,000の画像で構成されるベンチマーク・データセットを提供した。
– EVJVQAは、多言語ビジュアル質問応答の評価に使用されるVLSP 2022の課題であり、異なる大学や組織から62の参加チームが集まった。
– この記事では、チャレンジの組織の詳細、共有タスク参加者が採用した方法の概要、および結果について説明している。最高パフォーマンスは、プライベートテストセットでF1スコアが0.4392、BLUEが0.4009であった。
– 上位2つのチームが提案した多言語QAシステムは、ビジョンモデルの事前学習にViT、言語モデルの事前学習にTransformerアーキテクチャに基づく強力なプレトレーニング言語モデルであるmT5を使用している。
– EVJVQAは、NLPとCV研究者が多言語ビジュアル質問応答システムのさらなる探求を促すようなチャレンジングなデータセットであり、評価システムCodalabでの研究のためにチャレンジをリリースした。

要約(オリジナル)

Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems. We released the challenge on the Codalab evaluation system for further research.

arxiv情報

著者 Ngan Luu-Thuy Nguyen,Nghia Hieu Nguyen,Duong T. D Vo,Khanh Quoc Tran,Kiet Van Nguyen
発行日 2023-04-12 00:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク