要約
機械翻訳 (MT) を強化するために視覚情報が導入されましたが、その有効性は、手動の画像注釈を備えた大量の対訳文の対訳が利用できるかどうかに大きく依存しています。
本稿では、安定した拡散ベースの想像力ネットワークをマルチモーダル大規模言語モデル(MLLM)に導入し、各ソースセンテンスの画像を明示的に生成することで、マルチモデルMTを進歩させます。
特に、強化学習を使用してヒューリスティックな人間によるフィードバックを構築し、画像注釈の監視なしで生成された画像とソース文の一貫性を確保します。これにより、MT で視覚情報を使用する際のボトルネックが解消されます。
さらに、提案手法により、想像力豊かな視覚情報をマルチモーダル MT に加えて大規模なテキストのみの MT に統合することができます。
実験結果は、私たちのモデルが既存のマルチモーダル MT およびテキストのみの MT を大幅に上回り、特に Multi30K マルチモーダル MT ベンチマークで 14 BLEU ポイントを超える平均改善を達成したことを示しています。
要約(オリジナル)
Visual information has been introduced for enhancing machine translation (MT), and its effectiveness heavily relies on the availability of large amounts of bilingual parallel sentence pairs with manual image annotations. In this paper, we introduce a stable diffusion-based imagination network into a multimodal large language model (MLLM) to explicitly generate an image for each source sentence, thereby advancing the multimodel MT. Particularly, we build heuristic human feedback with reinforcement learning to ensure the consistency of the generated image with the source sentence without the supervision of image annotation, which breaks the bottleneck of using visual information in MT. Furthermore, the proposed method enables imaginative visual information to be integrated into large-scale text-only MT in addition to multimodal MT. Experimental results show that our model significantly outperforms existing multimodal MT and text-only MT, especially achieving an average improvement of more than 14 BLEU points on Multi30K multimodal MT benchmarks.
arxiv情報
著者 | Andong Chen,Yuchen Song,Kehai Chen,Muyun Yang,Tiejun Zhao,Min Zhang |
発行日 | 2025-01-06 06:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google