A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation

要約

BERT や GPT シリーズなどの大規模な言語モデルは、大規模なデータセットでの事前トレーニングを介して汎用モデルを構築し、その後タスク固有のデータセットで微調整することを必要とするパラダイム シフトを開始しました。
現在、自然言語処理とコンピューター ビジョン用の大規模な事前トレーニング済みモデルが大量にあります。
最近では、視覚と言語の共同空間でも急速な発展が見られ、CLIP (Radford et al., 2021) などの事前トレーニング済みモデルにより、画像キャプションや視覚的な質問応答などの下流タスクの改善が実証されています。
しかし、驚くべきことに、テキストからテキストへの翻訳で画像/ビデオモダリティを活用することが目的であるマルチモーダル機械翻訳のタスク用に、これらのモデルを調査する取り組みは比較的ほとんどありません。
このギャップを埋めるために、この論文では、マルチモーダル機械翻訳の視点から言語と視覚の事前トレーニングの状況を概観します。
一般的なアーキテクチャ、事前トレーニングの目的、文献からのデータセットを要約し、マルチモーダル機械翻訳を進歩させるにはさらに何が必要かを推測します。

要約(オリジナル)

Large language models such as BERT and the GPT series started a paradigm shift that calls for building general-purpose models via pre-training on large datasets, followed by fine-tuning on task-specific datasets. There is now a plethora of large pre-trained models for Natural Language Processing and Computer Vision. Recently, we have seen rapid developments in the joint Vision-Language space as well, where pre-trained models such as CLIP (Radford et al., 2021) have demonstrated improvements in downstream tasks like image captioning and visual question answering. However, surprisingly there is comparatively little work on exploring these models for the task of multimodal machine translation, where the goal is to leverage image/video modality in text-to-text translation. To fill this gap, this paper surveys the landscape of language-and-vision pre-training from the lens of multimodal machine translation. We summarize the common architectures, pre-training objectives, and datasets from literature and conjecture what further is needed to make progress on multimodal machine translation.

arxiv情報

著者 Jeremy Gwinnup,Kevin Duh
発行日 2023-06-12 15:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク