DABS: A Domain-Agnostic Benchmark for Self-Supervised Learning

要約

BERTやSimCLRなどの自己教師付き学習アルゴリズムは、自然言語処理、コンピュータビジョン、音声処理などの分野で大きな発展を遂げてきた。しかし、これらのアルゴリズムはドメイン固有であるため、ヘルスケア、科学、マルチモーダルなど無数のドメインを含む新しい環境ごとに新しい教師あり学習アルゴリズムを開発する必要がある。そこで、我々はDABS(Domain-Agnostic Benchmark for Self-supervised learning)を導入し、分野を問わない手法の開発を促進する。DABSでは、自然画像、マルチチャンネルセンサーデータ、英語テキスト、音声記録、多言語テキスト、胸部X線、テキスト説明付き画像という7つの多様なドメインでアルゴリズムを評価し、良い成績を収めることができる。各ドメインには事前学習用のラベル無しデータセットが含まれ、モデルはそのドメイン内のラベル付きタスクのセットに対する下流性能に基づいて評価される。また、ドメインに依存しないベースラインアルゴリズムであるe-MixとShEDを紹介する。これらの比較的控えめな性能は、自己教師付き学習が任意のドメインに対してすぐに使えるソリューションとなるには大きな進展が必要であることを示している。ベンチマークデータセットとベースラインアルゴリズムのコードは https://github.com/alextamkin/dabs で公開されています。

要約(オリジナル)

Self-supervised learning algorithms, including BERT and SimCLR, have enabled significant strides in fields like natural language processing, computer vision, and speech processing. However, these algorithms are domain-specific, meaning that new self-supervised learning algorithms must be developed for each new setting, including myriad healthcare, scientific, and multimodal domains. To catalyze progress toward domain-agnostic methods, we introduce DABS: a Domain-Agnostic Benchmark for Self-supervised learning. To perform well on DABS, an algorithm is evaluated on seven diverse domains: natural images, multichannel sensor data, English text, speech recordings, multilingual text, chest x-rays, and images with text descriptions. Each domain contains an unlabeled dataset for pretraining; the model is then is scored based on its downstream performance on a set of labeled tasks in the domain. We also present e-Mix and ShED: two baseline domain-agnostic algorithms; their relatively modest performance demonstrates that significant progress is needed before self-supervised learning is an out-of-the-box solution for arbitrary domains. Code for benchmark datasets and baseline algorithms is available at https://github.com/alextamkin/dabs.

arxiv情報

著者 Alex Tamkin,Vincent Liu,Rongfei Lu,Daniel Fein,Colin Schultz,Noah Goodman
発行日 2023-01-05 22:27:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク