CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation

要約

視覚的な知識を使ってニューラル機械翻訳 (NMT) を強化するマルチモーダル機械翻訳 (MMT) システムの開発への関心が高まっています。
この問題設定には、トレーニング中に補助情報として画像を使用することが含まれており、最近では推論中に画像の使用が排除されています。
この目的に向けて、これまでの研究では、特に低リソース言語の場合、注釈付きの多言語視覚言語データが不足しているため、強力な MMT モデルをゼロからトレーニングするという課題に直面していました。
同時に、NMT 用の多言語事前トレーニング モデルと、主に英語での視覚言語タスク用のマルチモーダル事前トレーニング モデルが流入しており、これらは並外れた汎化能力を示しています。
ただし、これらは生成タスクに調整されたマルチモーダルな多言語機能を提供しないため、MMT には直接適用できません。
この問題を軽減するために、MMT 用の複雑なモジュールを設計する代わりに、独立して事前トレーニングされたマルチモーダル M-CLIP と多言語 mBART を単純に適応させる CLIPTrans を提案します。
埋め込みスペースを調整するために、mBART は軽量マッピング ネットワークを通じて生成されたプレフィックス シーケンスによって M-CLIP 機能に条件付けされます。
これを 2 段階のパイプラインでトレーニングし、実際の翻訳タスクの前に画像キャプションを使用してモデルをウォームアップします。
実験を通じて、このフレームワークの利点を実証し、その結果、標準ベンチマーク全体で平均 +2.67 BLEU の最先端技術を推進します。
コードは www.github.com/devaansh100/CLIPTrans にあります。

要約(オリジナル)

There has been a growing interest in developing multimodal machine translation (MMT) systems that enhance neural machine translation (NMT) with visual knowledge. This problem setup involves using images as auxiliary information during training, and more recently, eliminating their use during inference. Towards this end, previous works face a challenge in training powerful MMT models from scratch due to the scarcity of annotated multilingual vision-language data, especially for low-resource languages. Simultaneously, there has been an influx of multilingual pre-trained models for NMT and multimodal pre-trained models for vision-language tasks, primarily in English, which have shown exceptional generalisation ability. However, these are not directly applicable to MMT since they do not provide aligned multimodal multilingual features for generative tasks. To alleviate this issue, instead of designing complex modules for MMT, we propose CLIPTrans, which simply adapts the independently pre-trained multimodal M-CLIP and the multilingual mBART. In order to align their embedding spaces, mBART is conditioned on the M-CLIP features by a prefix sequence generated through a lightweight mapping network. We train this in a two-stage pipeline which warms up the model with image captioning before the actual translation task. Through experiments, we demonstrate the merits of this framework and consequently push forward the state-of-the-art across standard benchmarks by an average of +2.67 BLEU. The code can be found at www.github.com/devaansh100/CLIPTrans.

arxiv情報

著者 Devaansh Gupta,Siddhant Kharbanda,Jiawei Zhou,Wanhua Li,Hanspeter Pfister,Donglai Wei
発行日 2023-08-29 11:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク