Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

要約

自己教師あり機能は、最新の機械学習システムの基礎です。
通常、データ収集に関して事前トレーニングされており、その構築とキュレーションには通常、多大な人間の労力が必要です。
この手動プロセスには、教師あり学習で遭遇するものと同様のいくつかの制限があります。たとえば、クラウドソーシングによるデータの選択にはコストと時間がかかり、データセットのサイズを拡張することができません。
この研究では、自己教師ありの事前トレーニングのための高品質のデータセットの自動キュレーションの問題を検討します。
私たちは、そのようなデータセットは大規模で、多様性があり、バランスがとれている必要があると仮定し、これらの基準をすべて満たすデータセットを構築するためのクラスタリング ベースのアプローチを提案します。
私たちの方法では、大規模で多様なデータ リポジトリ上で $k$-mean を連続的かつ階層的に適用して、データ概念間で均一に分布するクラスターを取得し、その後、これらのクラスターから階層的でバランスの取れたサンプリング ステップを実行します。
ウェブベースの画像、衛星画像、テキストを含む 3 つの異なるデータ ドメインに関する広範な実験により、自動でキュレーションされたデータセットでトレーニングされた特徴は、キュレーションされていないデータでトレーニングされた特徴よりも優れ、手動でキュレーションされたデータでトレーニングされた特徴と同等かそれ以上のパフォーマンスを示すことが示されました。

要約(オリジナル)

Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of $k$-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data.

arxiv情報

著者 Huy V. Vo,Vasil Khalidov,Timothée Darcet,Théo Moutakanni,Nikita Smetanin,Marc Szafraniec,Hugo Touvron,Camille Couprie,Maxime Oquab,Armand Joulin,Hervé Jégou,Patrick Labatut,Piotr Bojanowski
発行日 2024-05-24 14:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク