要約
データ量が自己教師あり学習の有効性を高める時代では、データ セマンティクスの特異性と明確さがモデルのトレーニングで重要な役割を果たします。
これに対処するために、我々は、広範でノイズの多い画像とテキストのペアのデータセットからモダリティごとに意味があり、適切に調整されたデータを細心の注意を払って抽出するように設計された新しい方法論である HYPerbolic Entailment filtering (HYPE) を導入します。
私たちのアプローチは、双曲線埋め込みと含意円錐の概念を活用して、意味のない、または不完全なセマンティクスを持つサンプルを評価して除外し、各データ サンプルの特異性を高めることに重点を置いています。
HYPE は、フィルタリング効率の大幅な向上を実証するだけでなく、既存のフィルタリング技術と組み合わせることで、DataComp ベンチマークの新たな最先端を確立します。
この画期的な成果は、データ選択プロセスを改良する HYPE の可能性を示し、それによってより正確で効率的な自己教師あり学習モデルの開発に貢献します。
さらに、画像特異性 $\epsilon_{i}$ を独立して適用して、画像のみの自己教師ありモデルをトレーニングするために画像テキストまたは画像のみのデータ プールから画像のみのデータセットを誘導することができ、画像のみの自己教師ありモデルと比較して優れたパフォーマンスを示しました。
CLIP スコアによって誘導されたデータセット。
要約(オリジナル)
In an era where the volume of data drives the effectiveness of self-supervised learning, the specificity and clarity of data semantics play a crucial role in model training. Addressing this, we introduce HYPerbolic Entailment filtering (HYPE), a novel methodology designed to meticulously extract modality-wise meaningful and well-aligned data from extensive, noisy image-text pair datasets. Our approach leverages hyperbolic embeddings and the concept of entailment cones to evaluate and filter out samples with meaningless or underspecified semantics, focusing on enhancing the specificity of each data sample. HYPE not only demonstrates a significant improvement in filtering efficiency but also sets a new state-of-the-art in the DataComp benchmark when combined with existing filtering techniques. This breakthrough showcases the potential of HYPE to refine the data selection process, thereby contributing to the development of more accurate and efficient self-supervised learning models. Additionally, the image specificity $\epsilon_{i}$ can be independently applied to induce an image-only dataset from an image-text or image-only data pool for training image-only self-supervised models and showed superior performance when compared to the dataset induced by CLIP score.
arxiv情報
著者 | Wonjae Kim,Sanghyuk Chun,Taekyung Kim,Dongyoon Han,Sangdoo Yun |
発行日 | 2024-07-16 15:11:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google