Efficient distributed representations with linear-time attention scores normalization

要約

注意スコア行列 ${\rm SoftMax}(XY^T)$ は、オブジェクト間の関係類似性パターンをエンコードし、機械学習で非常によく使われます。
ただし、計算に必要な複雑さは問題のサイズに応じて二次関数的に増加するため、計算量の多いソリューションになります。
この記事では、有界ノルムを持つ埋め込みベクトルに対する注意スコア正規化定数の線形時間近似を提案します。
いくつかの事前トレーニング済み埋め込みで、推定式の精度が競合するカーネル手法を桁違いに上回ることを示しました。
この結果から、注意スコアの最適化に基づいて、線形時間およびタスクに依存しない埋め込みアルゴリズムを設計します。
提案されたアルゴリズムは解釈可能性が高く、任意の埋め込み問題に容易に適応できます。
いくつかのユースケースを検討し、同等の埋め込みアルゴリズムと比較して、同等以上のパフォーマンスとより短い計算時間を観察しました。

要約(オリジナル)

The attention score matrix ${\rm SoftMax}(XY^T)$ encodes relational similarity patterns between objects and is extremely popular in machine learning. However, the complexity required to calculate it runs quadratically with the problem size, making it a computationally heavy solution. In this article, we propose a linear-time approximation of the attention score normalization constants for embedding vectors with bounded norms. We show on several pre-trained embeddings that the accuracy of our estimation formula surpasses competing kernel methods by even orders of magnitude. From this result, we design a linear-time and task-agnostic embedding algorithm based on the optimization of the attention scores. The proposed algorithm is highly interpretable and easily adapted to an arbitrary embedding problem. We consider a few use-cases and observe similar or higher performances and a lower computational time with respect to comparable embedding algorithms.

arxiv情報

著者 Lorenzo Dall’Amico,Enrico Maria Belliardo
発行日 2024-10-30 13:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク