Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

要約

近年、自己教師付き表現学習(SSRL)はコンピュータビジョン、音声、自然言語処理(NLP)の分野で注目されており、最近ではセンサーからの時系列を含む他の種類のモダリティでも利用されている。自己教師あり学習が注目される背景には、従来のモデルでは学習に膨大な量の注釈付きデータが必要であったという事実がある。しかし、そのようなデータ収集は困難であり、コストもかかる。自己教師付き学習法は、生データから自由に得られた教師信号を用いてモデルを識別的に事前学習することで、学習データの効率を向上させるために導入されたものである。本論文では、従来のSSRLのレビューがCVやNLPといった単一モダリティの手法に偏っていたのに対し、時間データに対するマルチモーダルな自己教師付き学習手法に関する初の包括的なレビューを提供することを目的とする。この目的のため、1)既存のSSRL手法を包括的に分類し、2)SSRLフレームワークの主要な構成要素を定義することで汎用的なパイプラインを紹介し、3)既存のモデルをその目的関数、ネットワークアーキテクチャ、潜在アプリケーションの観点から比較し、4)各分類と様々なモダリティにおける既存のマルチモーダル技術についてレビューしている。最後に、既存の弱点と将来の可能性を提示する。我々は、我々の研究が、マルチモーダル及び/又は時間データを利用するドメインにおけるSSRLの要件に関する観点を発展させると考えている

要約(オリジナル)

Recently, Self-Supervised Representation Learning (SSRL) has attracted much attention in the field of computer vision, speech, natural language processing (NLP), and recently, with other types of modalities, including time series from sensors. The popularity of self-supervised learning is driven by the fact that traditional models typically require a huge amount of well-annotated data for training. Acquiring annotated data can be a difficult and costly process. Self-supervised methods have been introduced to improve the efficiency of training data through discriminative pre-training of models using supervisory signals that have been freely obtained from the raw data. Unlike existing reviews of SSRL that have pre-dominately focused upon methods in the fields of CV or NLP for a single modality, we aim to provide the first comprehensive review of multimodal self-supervised learning methods for temporal data. To this end, we 1) provide a comprehensive categorization of existing SSRL methods, 2) introduce a generic pipeline by defining the key components of a SSRL framework, 3) compare existing models in terms of their objective function, network architecture and potential applications, and 4) review existing multimodal techniques in each category and various modalities. Finally, we present existing weaknesses and future opportunities. We believe our work develops a perspective on the requirements of SSRL in domains that utilise multimodal and/or temporal data

arxiv情報

著者 Shohreh Deldari,Hao Xue,Aaqib Saeed,Jiayuan He,Daniel V. Smith,Flora D. Salim
発行日 2022-06-08 03:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク