BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation

要約

マルチモダリティ機械翻訳の研究を促進するために、大規模なビデオ字幕翻訳データセット BigVideo を紹介します。
広く使用されている How2 および VaTeX データセットと比較すると、BigVideo は 10 倍以上大きく、450 万の文ペアと 9,981 時間のビデオで構成されています。
また、視覚情報の必要性を検証するために意図的に設計された 2 つのテスト セットも紹介します。曖昧な単語が存在する曖昧性と、テキストのコンテキストが翻訳用に自己完結型である明確性です。
テキストとビデオ間で共有される共通のセマンティクスをより適切にモデル化するために、クロスモーダル エンコーダーに対照的な学習方法を導入します。
BigVideo での大規模な実験により、次のことがわかりました。 a) 視覚情報により、あいまいなテスト セットと曖昧でないテスト セットの両方で、BLEU、BLEURT、COMET に関して NMT モデルが一貫して改善されます。
b) 用語を対象としたスコアや人間による評価に関する強力なテキストのベースラインと比較して、視覚的な情報は曖昧さの解消に役立ちます。
データセットと実装は https://github.com/DeepLearnXMU/BigVideo-VMT で入手できます。

要約(オリジナル)

We present a large-scale video subtitle translation dataset, BigVideo, to facilitate the study of multi-modality machine translation. Compared with the widely used How2 and VaTeX datasets, BigVideo is more than 10 times larger, consisting of 4.5 million sentence pairs and 9,981 hours of videos. We also introduce two deliberately designed test sets to verify the necessity of visual information: Ambiguous with the presence of ambiguous words, and Unambiguous in which the text context is self-contained for translation. To better model the common semantics shared across texts and videos, we introduce a contrastive learning method in the cross-modal encoder. Extensive experiments on the BigVideo show that: a) Visual information consistently improves the NMT model in terms of BLEU, BLEURT, and COMET on both Ambiguous and Unambiguous test sets. b) Visual information helps disambiguation, compared to the strong text baseline on terminology-targeted scores and human evaluation. Dataset and our implementations are available at https://github.com/DeepLearnXMU/BigVideo-VMT.

arxiv情報

著者 Liyan Kang,Luyang Huang,Ningxin Peng,Peihao Zhu,Zewei Sun,Shanbo Cheng,Mingxuan Wang,Degen Huang,Jinsong Su
発行日 2023-06-09 07:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク