要約
マルチモーダル機械翻訳 (MMT) は、ソース文と関連する画像を翻訳の入力として同時に受け取ります。
ほとんどの場合、入力文に使用できるペアの画像がないため、最近の研究では、強力なテキストから画像への生成モデルを利用して画像入力を提供することが提案されています。
それにもかかわらず、これらのモデルによって生成された合成画像は、多くの場合、本物の画像と比較して異なる分布に従います。
したがって、トレーニングに本物の画像を使用し、推論に合成画像を使用すると、分布のシフトが生じ、推論中にパフォーマンスが低下する可能性があります。
この課題に取り組むために、この論文では、合成画像と本物の画像をそれぞれ MMT モデルに供給します。
次に、Transformer Encoder の入力画像表現と Transformer Decoder の出力分布を近づけることによって、合成画像と本物の画像の間のギャップを最小限に抑えます。
したがって、推論中に合成画像によってもたらされる分布の不均衡を緩和し、それによって本物の画像を推論プロセスから解放します。実験結果は、私たちのアプローチが Multi30K En-De および En-Fr で最先端のパフォーマンスを達成することを示しています。
データセットは、推論中に本物の画像から独立したままになります。
要約(オリジナル)
Multimodal machine translation (MMT) simultaneously takes the source sentence and a relevant image as input for translation. Since there is no paired image available for the input sentence in most cases, recent studies suggest utilizing powerful text-to-image generation models to provide image inputs. Nevertheless, synthetic images generated by these models often follow different distributions compared to authentic images. Consequently, using authentic images for training and synthetic images for inference can introduce a distribution shift, resulting in performance degradation during inference. To tackle this challenge, in this paper, we feed synthetic and authentic images to the MMT model, respectively. Then we minimize the gap between the synthetic and authentic images by drawing close the input image representations of the Transformer Encoder and the output distributions of the Transformer Decoder. Therefore, we mitigate the distribution disparity introduced by the synthetic images during inference, thereby freeing the authentic images from the inference process.Experimental results show that our approach achieves state-of-the-art performance on the Multi30K En-De and En-Fr datasets, while remaining independent of authentic images during inference.
arxiv情報
著者 | Wenyu Guo,Qingkai Fang,Dong Yu,Yang Feng |
発行日 | 2023-10-20 09:06:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google