要約
近年の言語横断的な研究では、視覚言語事前学習(VLP)モデルを非英語入力に拡張し、素晴らしい性能を達成することが試みられています。しかし、これらのモデルはエンコーダのみのアーキテクチャを用いた理解タスクにのみ焦点を当てている。本論文では、生成タスクと理解タスクの両方に対応する、言語横断的なクロスモーダル事前学習フレームワークであるERNIE-UniX2を提案する。ERNIE-UniX2は、エンコーダ・デコーダに基づく複数の事前学習パラダイム(例えば、対照学習や言語モデリング)を統合し、言語とモダリティを横断したより良い結合表現を学習することを試みる。さらに、ERNIE-UniX2は、様々な生成・理解タスクに対してシームレスに微調整を行うことができます。ERNIE-UniX2は、多言語テキストデータセットと画像テキストデータセットで事前学習を行い、マルチモーダル機械翻訳や多言語視覚質問応答などの様々な言語間クロスモーダル生成・理解タスクでSOTAの結果を達成しました。
要約(オリジナル)
Recent cross-lingual cross-modal works attempt to extend Vision-Language Pre-training (VLP) models to non-English inputs and achieve impressive performance. However, these models focus only on understanding tasks utilizing encoder-only architecture. In this paper, we propose ERNIE-UniX2, a unified cross-lingual cross-modal pre-training framework for both generation and understanding tasks. ERNIE-UniX2 integrates multiple pre-training paradigms (e.g., contrastive learning and language modeling) based on encoder-decoder architecture and attempts to learn a better joint representation across languages and modalities. Furthermore, ERNIE-UniX2 can be seamlessly fine-tuned for varieties of generation and understanding downstream tasks. Pre-trained on both multilingual text-only and image-text datasets, ERNIE-UniX2 achieves SOTA results on various cross-lingual cross-modal generation and understanding tasks such as multimodal machine translation and multilingual visual question answering.
arxiv情報
著者 | Bin Shan,Yaqian Han,Weichong Yin,Shuohuan Wang,Yu Sun,Hao Tian,Hua Wu,Haifeng Wang |
発行日 | 2022-11-09 13:06:58+00:00 |
arxivサイト | arxiv_id(pdf) |