Self-Supervised Multimodal Learning: A Survey

要約

タイトル:自己教示多モーダル学習:サーベイ
要約:

– 画像や音声など、複数のモーダリティからの情報を理解し分析する多モーダル学習は、過去数年間において監督学習において大きな進歩を遂げている。
– しかし、データの依存度が高く、人間によるアノテーションが必要なため、モデルの拡張性に支障をきたす。
– 一方、未アノテーション大規模データの存在により、自己教示学習がアノテーションの瓶頸を緩和する有望な手法である。
– この2つの方向を組み合わせた自己教示多モーダル学習(SSML)は、生の多モーダルデータから教師あり学習を利用する方法を提供します。
– この調査では、SSMLの最新状況について網羅的にレビューし、3つの正交した軸(目的関数、データアライメント、モデルアーキテクチャー)に沿ってカテゴライズします。
– 具体的には、トレーニング目的をインスタンスの識別、クラスタリング、マスクされた予測に分類し、トレーニング中の多モーダル入力データのペアリングとアライメント戦略についても議論します。
– 最後に、SSML手法の主要なコンポーネントであるエンコーダー、フュージョンモジュール、デコーダーの設計について、およびイメージテキストモデルや多モーダルビデオモデルの具体的な性能についてレビューし、ヘルスケア、リモートセンシング、機械翻訳などの多様な分野でのSSMLアルゴリズムの実世界の適用についてもレビューします。
– 最後に、SSMLの課題と今後の方向性について議論します。関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningで見つけることができます。

要約(オリジナル)

Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to leverage supervision from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, which we categorize along three orthogonal axes: objective functions, data alignment, and model architectures. These axes correspond to the inherent characteristics of self-supervised learning methods and multimodal data. Specifically, we classify training objectives into instance discrimination, clustering, and masked prediction categories. We also discuss multimodal input data pairing and alignment strategies during training. Finally, we review model architectures including the design of encoders, fusion modules, and decoders, which are essential components of SSML methods. We review downstream multimodal application tasks, reporting the concrete performance of the state-of-the-art image-text models and multimodal video models, and also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.

arxiv情報

著者 Yongshuo Zong,Oisin Mac Aodha,Timothy Hospedales
発行日 2023-03-31 16:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク