Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation

要約

機械翻訳 (MT) の主な課題の 1 つはあいまいさです。これは、場合によっては、画像などのコンテキストを付随させることで解決できます。
ただし、マルチモーダル MT (MMT) の最近の研究では、効果的なクロスモーダル表現を構築することの難しさだけでなく、特定の評価およびトレーニング データの欠如によっても、画像から改善を得ることは困難であることが示されています。
強力なテキストのみの MT モデルに基づく新しい MMT アプローチを提示します。このモデルは、ニューラル アダプターと新しい誘導自己注意メカニズムを使用し、ビジュアル マスキングと MMT の両方で共同トレーニングされます。
また、Contrastive Multilingual Multimodal Translation Evaluation dataset である CoMMuTE もリリースしています。このデータセットは、あいまいな文とその可能な翻訳で構成され、各翻訳に対応する曖昧さを解消する画像が添付されています。
私たちのアプローチは、標準的な英語からフランス語へのベンチマークで強力なテキストのみのモデルよりも競争力のある結果を取得し、これらのベースラインと最先端の MMT システムよりも優れており、対照的なテスト セットで大きなマージンを持っています。

要約(オリジナル)

One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as an image. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters and a novel guided self-attention mechanism and which is jointly trained on both visual masking and MMT. We also release CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation dataset, composed of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results over strong text-only models on standard English-to-French benchmarks and outperforms these baselines and state-of-the-art MMT systems with a large margin on our contrastive test set.

arxiv情報

著者 Matthieu Futeral,Cordelia Schmid,Ivan Laptev,Benoît Sagot,Rachel Bawden
発行日 2022-12-20 10:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク