要約
多くの大規模システムは、検索、検索、生成モデリングなどのタスクを容易にするために、高品質の深い表現(埋め込み)に依存しています。
Matryoshka表現学習(MRL)は最近、適応埋め込みの長さのソリューションとして浮上しましたが、完全なモデル再訓練が必要であり、短い長さの顕著な性能劣化に苦しんでいます。
この論文では、スパースコーディングが最小限のオーバーヘッドとより高い忠実度で適応表現を達成するための説得力のある代替品を提供することを示します。
コントラストのスパース表現(CSR)を提案します。これは、事前に訓練された埋め込みを高次元的ではあるが選択的にアクティブ化された特徴空間にスパースする方法です。
軽量の自動エンコードとタスク認識の対照的な目標を活用することにより、CSRはセマンティック品質を保持しながら、異なるスパースレベルで柔軟で費用対効果の高い推論を可能にします。
画像、テキスト、マルチモーダルのベンチマークに関する広範な実験は、CSRが大マージンの精度と検索速度の両方の点でMRLを一貫して上回ることを示しています。
私たちの結果は、効率と忠実度が両方とも最も重要な現実世界のアプリケーションで、適応表現学習の強力なパラダイムとしてまばらなコーディングを確立します。
コードはhttps://github.com/neilwen987/csr_adaptive_repで入手できます
要約(オリジナル)
Many large-scale systems rely on high-quality deep representations (embeddings) to facilitate tasks like retrieval, search, and generative modeling. Matryoshka Representation Learning (MRL) recently emerged as a solution for adaptive embedding lengths, but it requires full model retraining and suffers from noticeable performance degradations at short lengths. In this paper, we show that sparse coding offers a compelling alternative for achieving adaptive representation with minimal overhead and higher fidelity. We propose Contrastive Sparse Representation (CSR), a method that sparsifies pre-trained embeddings into a high-dimensional but selectively activated feature space. By leveraging lightweight autoencoding and task-aware contrastive objectives, CSR preserves semantic quality while allowing flexible, cost-effective inference at different sparsity levels. Extensive experiments on image, text, and multimodal benchmarks demonstrate that CSR consistently outperforms MRL in terms of both accuracy and retrieval speed-often by large margins-while also cutting training time to a fraction of that required by MRL. Our results establish sparse coding as a powerful paradigm for adaptive representation learning in real-world applications where efficiency and fidelity are both paramount. Code is available at https://github.com/neilwen987/CSR_Adaptive_Rep
arxiv情報
著者 | Tiansheng Wen,Yifei Wang,Zequn Zeng,Zhong Peng,Yudi Su,Xinyang Liu,Bo Chen,Hongwei Liu,Stefanie Jegelka,Chenyu You |
発行日 | 2025-03-05 17:51:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google