要約
複数のモダリティからの情報を理解して分析することを目的としたマルチモーダル学習は、近年、教師あり学習において大幅な進歩を遂げています。
ただし、高価な人間による注釈と組み合わせたデータへの依存度が高いため、モデルのスケールアップが妨げられます。
一方、大規模な注釈のないデータが実際に利用できることを考えると、自己教師あり学習は、注釈のボトルネックを軽減する魅力的な戦略となっています。
これら 2 つの方向に基づいて、自己教師ありマルチモーダル学習 (SSML) は、生のマルチモーダル データから学習する方法を提供します。
この調査では、SSML の最先端技術の包括的なレビューを提供し、マルチモーダル データを使用した自己教師あり学習に固有の 3 つの主要な課題を明らかにします。(1) ラベルのないマルチモーダル データからの学習表現、(
2) 異なるモダリティの融合、および (3) 整列されていないデータによる学習。
次に、これらの課題に対する既存のソリューションについて詳しく説明します。
具体的には、(1) 自己監視を介したマルチモーダルのラベルなしデータからの学習の目的、(2) さまざまなマルチモーダル融合戦略の観点からのモデル アーキテクチャ、および (3) 粗粒度および粒度の細かいペアフリー学習戦略を検討します。
アライメント。
また、ヘルスケア、リモート センシング、機械翻訳などのさまざまな分野における SSML アルゴリズムの実世界のアプリケーションについてもレビューします。
最後に、SSML の課題と将来の方向性について説明します。
関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learning で見つけることができます。
要約(オリジナル)
Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to learn from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, in which we elucidate three major challenges intrinsic to self-supervised learning with multimodal data: (1) learning representations from multimodal data without labels, (2) fusion of different modalities, and (3) learning with unaligned data. We then detail existing solutions to these challenges. Specifically, we consider (1) objectives for learning from multimodal unlabeled data via self-supervision, (2) model architectures from the perspective of different multimodal fusion strategies, and (3) pair-free learning strategies for coarse-grained and fine-grained alignment. We also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
arxiv情報
著者 | Yongshuo Zong,Oisin Mac Aodha,Timothy Hospedales |
発行日 | 2024-08-16 16:26:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google