要約
近年、マルチモーダル機械翻訳は、その優れたパフォーマンスにより、学界と産業界の両方で大きな関心を集めています。
テキストとビジュアルの両方のモダリティを入力として取り、ビジュアルコンテキストを活用してソーステキストの曖昧さに対処します。
この論文では、まず 99 件の先行研究の徹底的な概要を提供し、主要なモデル、データセット、評価指標の観点から代表的な研究を包括的に要約します。
その後、モデルのパフォーマンスに対するさまざまな要因の影響を分析し、最終的に、将来このタスクで考えられる研究の方向性について議論します。
時間の経過とともに、マルチモーダル機械翻訳は、多様なニーズを満たすためにさらに多くのタイプが開発されました。
マルチモーダル機械翻訳の初期段階に限定されていたこれまでの調査とは異なり、私たちの調査では、研究者がその現状をよりよく理解できるように、さまざまな側面からこれらの新興タイプを徹底的に結論づけています。
要約(オリジナル)
In recent years, multi-modal machine translation has attracted significant interest in both academia and industry due to its superior performance. It takes both textual and visual modalities as inputs, leveraging visual context to tackle the ambiguities in source texts. In this paper, we begin by offering an exhaustive overview of 99 prior works, comprehensively summarizing representative studies from the perspectives of dominant models, datasets, and evaluation metrics. Afterwards, we analyze the impact of various factors on model performance and finally discuss the possible research directions for this task in the future. Over time, multi-modal machine translation has developed more types to meet diverse needs. Unlike previous surveys confined to the early stage of multi-modal machine translation, our survey thoroughly concludes these emerging types from different aspects, so as to provide researchers with a better understanding of its current state.
arxiv情報
著者 | Huangjun Shen,Liangying Shao,Wenbo Li,Zhibin Lan,Zhanyu Liu,Jinsong Su |
発行日 | 2024-05-23 03:56:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google