Vision-and-Language Pretraining

要約

画像とテキストのペアのデータ量が急増し、視覚と言語 (V\&L) タスクが多様性に富んでいるため、学者たちはこの研究領域に豊富な深層学習モデルを導入してきました。
さらに、近年、転移学習は画像分類や物体検出などのコンピュータビジョンや、質問応答や機械翻訳などの自然言語処理でも大きな成果を上げています。転移学習の精神を受け継ぎ、
V\&L の研究では、下流のタスクのパフォーマンスを向上させるために、大規模なデータセットに対する複数の事前トレーニング手法を考案しました。
この記事の目的は、現代の V\&L 事前トレーニング モデルの包括的な改訂版を提供することです。
特に、最先端の視覚と言語の事前トレーニング済みモデルの概要とともに、事前トレーニングのアプローチを分類して概説します。
さらに、V\&L 事前トレーニングへの視点をさらに磨き上げるために、トレーニング データセットと下流タスクのリストが提供されます。
最後に、私たちは今後の研究のさまざまな方向性について議論するためにさらに一歩を踏み出すことにしました。

要約(オリジナル)

With the burgeoning amount of data of image-text pairs and diversity of Vision-and-Language (V\&L) tasks, scholars have introduced an abundance of deep learning models in this research domain. Furthermore, in recent years, transfer learning has also shown tremendous success in Computer Vision for tasks such as Image Classification, Object Detection, etc., and in Natural Language Processing for Question Answering, Machine Translation, etc. Inheriting the spirit of Transfer Learning, research works in V\&L have devised multiple pretraining techniques on large-scale datasets in order to enhance the performance of downstream tasks. The aim of this article is to provide a comprehensive revision of contemporary V\&L pretraining models. In particular, we categorize and delineate pretraining approaches, along with the summary of state-of-the-art vision-and-language pretrained models. Moreover, a list of training datasets and downstream tasks is supplied to further polish the perspective into V\&L pretraining. Lastly, we decided to take a further step to discuss numerous directions for future research.

arxiv情報

著者 Thong Nguyen,Cong-Duy Nguyen,Xiaobao Wu,See-Kiong Ng,Anh Tuan Luu
発行日 2024-12-11 16:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク