SemDeDup: Data-efficient learning at web-scale through semantic deduplication

要約

機械学習の進歩は、主にデータの大幅な増加によって促進されてきました。
ただし、LAION などの大規模な Web スケールのデータセットは、正確な重複を検索する以外にはほとんどキュレーションされておらず、多くの冗長性が残っている可能性があります。
ここでは、SemDeDup を紹介します。これは、事前にトレーニングされたモデルからの埋め込みを活用して、セマンティックな重複を識別して削除する方法です: セマンティックに類似しているが、完全には同一ではないデータ ペアです。
セマンティックの重複を削除すると、パフォーマンスが維持され、学習が高速化されます。
LAION のサブセットを分析すると、SemDeDup がパフォーマンスの低下を最小限に抑えてデータの 50% を削除し、トレーニング時間を効果的に半分にできることを示しています。
また、分布外でのパフォーマンスが向上します。
また、部分的に精選されたデータセットである C4 でトレーニングされた言語モデルを分析すると、SemDeDup が以前のアプローチよりも改善され、効率が向上することが示されました。
SemDeDup は、高品質の埋め込みを活用する簡単な方法を使用して、モデルをより少ないデータでより速く学習させる方法の例を提供します。

要約(オリジナル)

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data.

arxiv情報

著者 Amro Abbas,Kushal Tirumala,Dániel Simig,Surya Ganguli,Ari S. Morcos
発行日 2023-03-22 17:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク