MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

要約

適切な形式の Text-Centric Visual Question Answering (TEC-VQA) は、テキスト中心のビジュアル環境での人間とマシンのインタラクションを容易にするだけでなく、テキスト中心のシーン理解の領域で AI モデルを評価するための事実上のゴールド プロキシとしても機能します。

ただし、ほとんどの TEC-VQA ベンチマークは、英語や中国語などの高リソース言語に焦点を当てています。
翻訳エンジンを使用して、非テキスト中心の VQA データセットで多言語 QA ペアを拡張する先駆的な取り組みにもかかわらず、翻訳ベースのプロトコルは、TEC-VQA に適用すると、重大な「ビジュアルとテキストの不整合」問題に遭遇します。
具体的には、画像内に存在する視覚的なテキストを無視して、質問と回答のペアのテキストを優先します。
さらに、微妙な意味、文脈の歪み、言語の偏り、質問の種類の多様性に関連する課題に適切に取り組んでいません。
この取り組みでは、多言語 TEC-VQA のタスクに取り組み、MTVQA と呼ばれる、9 つの多様な言語で人間による高品質の専門家による注釈を備えたベンチマークを提供します。
私たちの知る限り、MTVQA は、テキスト中心のシナリオに対して人間の専門家による注釈を提供する初の多言語 TEC-VQA ベンチマークです。
さらに、GPT-4V を含むいくつかの最先端のマルチモーダル大規模言語モデル (MLLM) を MTVQA データセットで評価すると、パフォーマンス向上の余地がまだあることが明らかであり、データセットの価値が強調されています。
このデータセットがコミュニティ内の研究者に新鮮な視点とインスピレーションを提供することを願っています。
MTVQA データセットは https://huggingface.co/datasets/ByteDance/MTVQA で入手できます。

要約(オリジナル)

Text-Centric Visual Question Answering (TEC-VQA) in its proper format not only facilitates human-machine interaction in text-centric visual environments but also serves as a de facto gold proxy to evaluate AI models in the domain of text-centric scene understanding. However, most TEC-VQA benchmarks have focused on high-resource languages like English and Chinese. Despite pioneering works to expand multilingual QA pairs in non-text-centric VQA datasets using translation engines, the translation-based protocol encounters a substantial “Visual-textual misalignment” problem when applied to TEC-VQA. Specifically, it prioritizes the text in question-answer pairs while disregarding the visual text present in images. Furthermore, it does not adequately tackle challenges related to nuanced meaning, contextual distortion, language bias, and question-type diversity. In this work, we address the task of multilingual TEC-VQA and provide a benchmark with high-quality human expert annotations in 9 diverse languages, called MTVQA. To our knowledge, MTVQA is the first multilingual TEC-VQA benchmark to provide human expert annotations for text-centric scenarios. Further, by evaluating several state-of-the-art Multimodal Large Language Models (MLLMs), including GPT-4V, on our MTVQA dataset, it is evident that there is still room for performance improvement, underscoring the value of our dataset. We hope this dataset will provide researchers with fresh perspectives and inspiration within the community. The MTVQA dataset will be available at https://huggingface.co/datasets/ByteDance/MTVQA.

arxiv情報

著者 Jingqun Tang,Qi Liu,Yongjie Ye,Jinghui Lu,Shu Wei,Chunhui Lin,Wanqing Li,Mohamad Fitri Faiz Bin Mahmood,Hao Feng,Zhen Zhao,Yanjie Wang,Yuliang Liu,Hao Liu,Xiang Bai,Can Huang
発行日 2024-05-20 12:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク