Fast Machine Learning Method with Vector Embedding on Orthonormal Basis and Spectral Transform

要約

この論文では、正規直交ベースのベクトル埋め込み (VEOB) とスペクトル変換 (ST) という 2 つの技術を活用した、新しい高速機械学習方法を紹介します。
VEOB は、元のデータ エンコーディングを正規直交基底に投影された座標を含むベクトルに変換します。
特異値分解 (SVD) 技術は、ベクトル基底と投影座標の計算に使用されます。これにより、埋め込み空間での距離測定が強化され、最大の特異値に関連付けられた投影ベクトルを保存することでデータ圧縮が容易になります。
一方、ST はベクトル データのシーケンスをスペクトル空間に変換します。
離散コサイン変換 (DCT) を適用し、最も重要なコンポーネントを選択することにより、長いベクトル シーケンスの処理が合理化されます。
この論文では、ベクトル データベースを使用して Julia 言語で実装された、単語の埋め込み、テキスト チャンクの埋め込み、および画像の埋め込みの例を示します。
また、この方法を使用した教師なし学習と教師あり学習、および大量のデータを処理する戦略についても調査します。

要約(オリジナル)

This paper presents a novel fast machine learning method that leverages two techniques: Vector Embedding on Orthonormal Basis (VEOB) and Spectral Transform (ST). The VEOB converts the original data encoding into a vector embedding with coordinates projected onto orthonormal bases. The Singular Value Decomposition (SVD) technique is used to calculate the vector basis and projection coordinates, leading to an enhanced distance measurement in the embedding space and facilitating data compression by preserving the projection vectors associated with the largest singular values. On the other hand, ST transforms sequence of vector data into spectral space. By applying the Discrete Cosine Transform (DCT) and selecting the most significant components, it streamlines the handling of lengthy vector sequences. The paper provides examples of word embedding, text chunk embedding, and image embedding, implemented in Julia language with a vector database. It also investigates unsupervised learning and supervised learning using this method, along with strategies for handling large data volumes.

arxiv情報

著者 Louis Yu Lu
発行日 2023-11-13 16:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA パーマリンク