要約
ビジョン-言語タスクは研究コミュニティで人気を博しているが、まだ主に英語に焦点が当てられている。我々は、英語専用の視覚言語モデルを利用して、ターゲット言語用の単言語モデルを学習するパイプラインを提案する。オブジェクトタグをアンカーポイントとして画像とテキストの位置関係を学習するモデルであるOSCAR+を拡張し、異なる言語の視覚質問応答データセットで学習することを提案する。並列文を用いて他言語のモデルを学習するために、知識抽出の新しいアプローチを提案する。ターゲット言語を事前学習コーパスに用いる他のモデルと比較して、既存の英語モデルを活用することで、大幅に少ないリソースでターゲット言語への知識移転を行うことができます。また、日本語とヒンディー語の大規模な視覚的質問応答データセットも公開しています。本論文では視覚的質問応答に関する研究に限定しているが、我々のモデルはあらゆるシーケンスレベルの分類タスクに拡張可能であり、他の言語にも同様に拡張できる。本論文では、視覚的質問応答タスクの2つの言語(日本語とヒンディー語)に焦点を当てます。我々のパイプラインは、現在の最先端モデルよりも、それぞれ4.4%、13.4%の相対的な精度向上で優れている。
要約(オリジナル)
Vision-and-language tasks are gaining popularity in the research community, but the focus is still mainly on English. We propose a pipeline that utilizes English-only vision-language models to train a monolingual model for a target language. We propose to extend OSCAR+, a model which leverages object tags as anchor points for learning image-text alignments, to train on visual question answering datasets in different languages. We propose a novel approach to knowledge distillation to train the model in other languages using parallel sentences. Compared to other models that use the target language in the pretraining corpora, we can leverage an existing English model to transfer the knowledge to the target language using significantly lesser resources. We also release a large-scale visual question answering dataset in Japanese and Hindi language. Though we restrict our work to visual question answering, our model can be extended to any sequence-level classification task, and it can be extended to other languages as well. This paper focuses on two languages for the visual question answering task – Japanese and Hindi. Our pipeline outperforms the current state-of-the-art models by a relative increase of 4.4% and 13.4% respectively in accuracy.
arxiv情報
著者 | Kshitij Gupta,Devansh Gautam,Radhika Mamidi |
発行日 | 2022-06-09 05:40:02+00:00 |
arxivサイト | arxiv_id(pdf) |