Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

要約

この論文では、ここ数年で開発されたマルチモーダル インテリジェンスのための視覚言語事前トレーニング (VLP) メソッドについて概説します。
これらのアプローチを次の 3 つのカテゴリに分類します。
($ii$) (オープンセット) 画像分類、オブジェクト検出、セグメンテーションなどのコア コンピューター ビジョン タスク用の VLP。
($iii$) ビデオ キャプション、ビデオ テキスト検索、ビデオ質問応答などのビデオ テキスト タスク用の VLP。
各カテゴリについて、最先端の方法の包括的なレビューを提示し、特定のシステムとモデルをケーススタディとして使用して、これまでの進歩とまだ直面している課題について説明します。
さらに、各カテゴリについて、大きな基盤モデル、統合モデリング、コンテキスト内の少数ショット学習、知識、ロバスト性、コンピュータ ビジョンなど、研究コミュニティで活発に調査されている高度なトピックについて議論し、
少し。

要約(オリジナル)

This paper surveys vision-language pre-training (VLP) methods for multimodal intelligence that have been developed in the last few years. We group these approaches into three categories: ($i$) VLP for image-text tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding; ($ii$) VLP for core computer vision tasks, such as (open-set) image classification, object detection, and segmentation; and ($iii$) VLP for video-text tasks, such as video captioning, video-text retrieval, and video question answering. For each category, we present a comprehensive review of state-of-the-art methods, and discuss the progress that has been made and challenges still being faced, using specific systems and models as case studies. In addition, for each category, we discuss advanced topics being actively explored in the research community, such as big foundation models, unified modeling, in-context few-shot learning, knowledge, robustness, and computer vision in the wild, to name a few.

arxiv情報

著者 Zhe Gan,Linjie Li,Chunyuan Li,Lijuan Wang,Zicheng Liu,Jianfeng Gao
発行日 2022-10-17 17:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク