Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation

要約

機械翻訳 (MT) の主要な課題の 1 つは曖昧さですが、場合によっては画像などのコンテキストを伴うことで解決できることがあります。
しかし、マルチモーダル MT (MMT) における最近の研究では、効果的なクロスモーダル表現を構築する難しさだけでなく、特定の評価データやトレーニング データが欠如していることによって、画像から改善を得ることが困難であることがわかっています。
我々は、強力なテキストのみの MT モデルに基づく新しい MMT アプローチを提案します。このモデルは、ニューラル アダプター、新しいガイド付きセルフ アテンション メカニズムを使用し、視覚条件付きマスキングと MMT の両方で共同トレーニングされます。
また、各翻訳に対応する曖昧さを解消する画像を伴う、あいまいな文とその可能な翻訳の対比多言語マルチモーダル翻訳評価セットである CoMMuTE も紹介します。
私たちのアプローチは、標準的な英語からフランス語、英語からドイツ語、英語からチェコ語のベンチマークで強力なテキストのみのモデルと比較して競争力のある結果を獲得し、ベースラインや最先端の​​ MMT システムを大幅に上回ります。
私たちの対照的なテストセット。
私たちのコードとCoMMuTEは無料で利用できます。

要約(オリジナル)

One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as images. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations, but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters, a novel guided self-attention mechanism and which is jointly trained on both visually-conditioned masking and MMT. We also introduce CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation set of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results compared to strong text-only models on standard English-to-French, English-to-German and English-to-Czech benchmarks and outperforms baselines and state-of-the-art MMT systems by a large margin on our contrastive test set. Our code and CoMMuTE are freely available.

arxiv情報

著者 Matthieu Futeral,Cordelia Schmid,Ivan Laptev,Benoît Sagot,Rachel Bawden
発行日 2023-05-26 10:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク