Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads

要約

対照学習 (CL) は、ラベルなしのデータを使用して特徴抽出モデルをトレーニングするための強力な方法として登場しました。
最近の研究では、線形投影ヘッドのポストバックボーンを組み込むとモデルのパフォーマンスが大幅に向上することが示唆されています。
この研究では、CL フレームワーク内のプロジェクション ヘッドとしてトランス モデルの使用を調査し、エンベディング間の長距離依存関係をキャプチャするトランスの能力を活用してパフォーマンスをさらに向上させることを目的としています。
私たちの主な貢献は 4 つあります。まず、対比学習のためのプロジェクション ヘッドの役割におけるトランスフォーマーの新しいアプリケーションを導入し、この種の最初の試みを示します。
第 2 に、私たちの実験は、注意メカニズムがより深い層にある同じクラスのサンプル間の正しい関係依存関係を徐々に捕捉する、魅力的な「ディープ フュージョン」現象を明らかにしました。
第三に、この「ディープフュージョン」動作を説明しサポートする理論的フレームワークを提供します。
最後に、実験結果を通じて、フィードフォワード層を使用する既存のアプローチと比較して、モデルが優れたパフォーマンスを達成することを実証します。

要約(オリジナル)

Contrastive Learning (CL) has emerged as a powerful method for training feature extraction models using unlabeled data. Recent studies suggest that incorporating a linear projection head post-backbone significantly enhances model performance. In this work, we investigate the use of a transformer model as a projection head within the CL framework, aiming to exploit the transformer’s capacity for capturing long-range dependencies across embeddings to further improve performance. Our key contributions are fourfold: First, we introduce a novel application of transformers in the projection head role for contrastive learning, marking the first endeavor of its kind. Second, our experiments reveal a compelling ‘Deep Fusion’ phenomenon where the attention mechanism progressively captures the correct relational dependencies among samples from the same class in deeper layers. Third, we provide a theoretical framework that explains and supports this ‘Deep Fusion’ behavior. Finally, we demonstrate through experimental results that our model achieves superior performance compared to the existing approach of using a feed-forward layer.

arxiv情報

著者 Huanran Li,Daniel Pimentel-Alarcón
発行日 2024-10-07 16:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク