要約
視覚的質問応答 (VQA) は、自然言語処理 (NLP) とコンピューター ビジョン (CV) の挑戦的なタスクであり、研究者から大きな注目を集めています。
英語はリソースが豊富な言語であり、視覚的な質問応答のためのデータセットとモデルでさまざまな開発が行われてきました。
他の言語での視覚的な質問応答も、リソースとモデル用に開発されます。
さらに、独自のオブジェクトと文化的特徴を持つ特定の国のビジュアル コンテンツを対象とした多言語データセットはありません。
この弱点に対処するために、多言語 VQA システムまたはモデルを評価するために、ベトナムから取得した約 5,000 枚の画像に関する、ベトナム語、英語、日本語の 3 つの言語による 33,000 以上の質問と回答のペアを含む、EVJVQA という名前のベンチマーク データセットを研究コミュニティに提供します。
.
EVJVQA は、ベトナム語と音声処理に関する第 9 回ワークショップ (VLSP 2022) での多言語視覚的質問応答の課題のベンチマーク データセットとして使用されます。
このタスクには、さまざまな大学や組織から 62 の参加チームが集まりました。
この記事では、課題の構成の詳細、共有タスクの参加者が採用した方法の概要、および結果を紹介します。
最高のパフォーマンスは、プライベート テスト セットの F1 スコアで 0.4392、BLUE で 0.4009 です。
上位 2 チームが提案する多言語 QA システムは、事前トレーニング済みビジョン モデルに ViT を使用し、事前トレーニング済み言語モデルに mT5 を使用します。これは、Transformer アーキテクチャに基づく強力な事前トレーニング済み言語モデルです。
EVJVQA は、NLP および CV の研究者が視覚的質問応答システムの多言語モデルまたはシステムをさらに調査する動機となる挑戦的なデータセットです。
要約(オリジナル)
Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems.
arxiv情報
著者 | Ngan Luu-Thuy Nguyen,Nghia Hieu Nguyen,Duong T. D Vo,Khanh Quoc Tran,Kiet Van Nguyen |
発行日 | 2023-02-24 02:02:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google