Towards Multi-Lingual Visual Question Answering

要約

Visual Question Answering (VQA) は、主に英語というレンズを通して研究されてきました。
しかし、他の言語で同じ方法で VQA に取り組むには、かなりのリソースが必要になります。
このホワイト ペーパーでは、データとモデリングの両方の面で、多言語の視覚的質問応答 (mVQA) に対するスケーラブルなソリューションを提案します。
最初に、質問と回答を直接収集する従来のアプローチよりもはるかに少ない人間の注釈作業を必要とする mVQA データ生成への翻訳ベースのフレームワークを提案します。
次に、フレームワークを Crossmodal-3600 データセットの多言語キャプションに適用し、効率的なアノテーション プロトコルを開発して、7 つの多様な言語でのテスト専用 VQA ベンチマークである MAVERICS-XM3600 (MaXM) を作成します。
最後に、統一された拡張可能なオープンエンドのエンドツーエンドの mVQA モデリングへのアプローチを提案し、13 の言語で強力なパフォーマンスを示します。

要約(オリジナル)

Visual Question Answering (VQA) has been primarily studied through the lens of the English language. Yet, tackling VQA in other languages in the same manner would require considerable amount of resources. In this paper, we propose scalable solutions to multi-lingual visual question answering (mVQA), on both data and modeling fronts. We first propose a translation-based framework to mVQA data generation that requires much less human annotation efforts than the conventional approach of directly collection questions and answers. Then, we apply our framework to the multi-lingual captions in the Crossmodal-3600 dataset and develop an efficient annotation protocol to create MAVERICS-XM3600 (MaXM), a test-only VQA benchmark in 7 diverse languages. Finally, we propose an approach to unified, extensible, open-ended, and end-to-end mVQA modeling and demonstrate strong performance in 13 languages.

arxiv情報

著者 Soravit Changpinyo,Linting Xue,Idan Szpektor,Ashish V. Thapliyal,Julien Amelot,Xi Chen,Radu Soricut
発行日 2022-09-12 16:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク