Keep your distance: learning dispersed embeddings on $\mathbb{S}_d$

要約

多くの機械学習アプリケーションにとって、テキストや画像の埋め込みなど、高次元空間でよく分離された機能を学習することが重要です。
このような分離を達成することは、無関係なベクターが可能な限り引き離される埋め込みの分散を通じて効果的に達成できます。
特徴をhypersphereに制約することにより、分散を数学と物理学の適切な問題に結びつけることができます。
ただし、表現学習では、通常、高次元空間の多数の機能を扱い、さらに、分散は通常、他のタスク指向のトレーニング目標と交換され、既存の理論的および数値ソリューションが適用できなくなります。
したがって、通常はペアワイズ距離の何らかの関数を最小化することにより、分散を促進するために勾配ベースの方法に依存することが一般的です。
この作業では、最初に切断された文献から既存の方法の概要を示し、新しいつながりを作り、類似点を強調します。
次に、いくつかの新しい角度を紹介します。
最大平均不一致(MMD)の動機を使用して、ペアワイズ分散を再解釈することを提案します。
次に、一般的なドメインに分散するための効果的な代替器として、有名なロイドのアルゴリズムであるK-Meansの名声のオンラインバリアントを提案します。
最後に、ハイパー球の特性を直接悪用する新しい分散法を導き出します。
私たちの実験は、画像分類と自然言語処理タスクにおける分散の重要性と、アルゴリズムがさまざまな体制で異なるトレードオフを示す方法を示しています。

要約(オリジナル)

Learning well-separated features in high-dimensional spaces, such as text or image embeddings, is crucial for many machine learning applications. Achieving such separation can be effectively accomplished through the dispersion of embeddings, where unrelated vectors are pushed apart as much as possible. By constraining features to be on a hypersphere, we can connect dispersion to well-studied problems in mathematics and physics, where optimal solutions are known for limited low-dimensional cases. However, in representation learning we typically deal with a large number of features in high-dimensional space, and moreover, dispersion is usually traded off with some other task-oriented training objective, making existing theoretical and numerical solutions inapplicable. Therefore, it is common to rely on gradient-based methods to encourage dispersion, usually by minimizing some function of the pairwise distances. In this work, we first give an overview of existing methods from disconnected literature, making new connections and highlighting similarities. Next, we introduce some new angles. We propose to reinterpret pairwise dispersion using a maximum mean discrepancy (MMD) motivation. We then propose an online variant of the celebrated Lloyd’s algorithm, of K-Means fame, as an effective alternative regularizer for dispersion on generic domains. Finally, we derive a novel dispersion method that directly exploits properties of the hypersphere. Our experiments show the importance of dispersion in image classification and natural language processing tasks, and how algorithms exhibit different trade-offs in different regimes.

arxiv情報

著者 Evgeniia Tokarchuk,Hua Chang Bakker,Vlad Niculae
発行日 2025-04-28 16:08:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク