Self-Guided Masked Autoencoders for Domain-Agnostic Self-Supervised Learning

要約

自己教師あり学習は、大量のラベルなしデータから表現を学習することに優れており、複数のデータ モダリティにわたって成功を実証しています。
しかし、自己教師あり学習を新しいモダリティに拡張することは簡単ではありません。これは、ターゲット タスクの不変性を反映するドメイン固有の拡張など、既存の手法の詳細が各ドメインに合わせて調整されているためです。
マスク モデリングは入力拡張に依存しないため、自己教師あり学習のドメインに依存しないフレームワークとして有望ですが、そのマスク サンプリング手順は依然としてドメイン固有です。
完全にドメインに依存しないマスク モデリング手法である Self-guided Masked Autoencoders (SMA) を紹介します。
SMA は、ドメイン固有の仮定を持たずにサンプリングするマスクを学習することにより、マスクされたモデリング目標を使用して注意ベースのモデルをトレーニングします。
私たちは、タンパク質生物学、化学的性質の予測、素粒子物理学における 3 つの自己教師あり学習ベンチマークに基づいて SMA を評価します。
SMA はドメイン固有の知識がなくても表現を学習でき、これら 3 つのベンチマークで最先端のパフォーマンスを達成できることがわかりました。

要約(オリジナル)

Self-supervised learning excels in learning representations from large amounts of unlabeled data, demonstrating success across multiple data modalities. Yet, extending self-supervised learning to new modalities is non-trivial because the specifics of existing methods are tailored to each domain, such as domain-specific augmentations which reflect the invariances in the target task. While masked modeling is promising as a domain-agnostic framework for self-supervised learning because it does not rely on input augmentations, its mask sampling procedure remains domain-specific. We present Self-guided Masked Autoencoders (SMA), a fully domain-agnostic masked modeling method. SMA trains an attention based model using a masked modeling objective, by learning masks to sample without any domain-specific assumptions. We evaluate SMA on three self-supervised learning benchmarks in protein biology, chemical property prediction, and particle physics. We find SMA is capable of learning representations without domain-specific knowledge and achieves state-of-the-art performance on these three benchmarks.

arxiv情報

著者 Johnathan Xie,Yoonho Lee,Annie S. Chen,Chelsea Finn
発行日 2024-02-22 18:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク