Vec2Vec: A Compact Neural Network Approach for Transforming Text Embeddings with High Fidelity

要約

ベクトル埋め込みは、多くの言語関連タスクのためのユビキタスなツールとなっています。
主要な埋め込みモデルは OpenAI の text-ada-002 で、約 6,000 の単語を 1,536 次元のベクトルに埋め込むことができます。
text-ada-002 は強力ですが、オープンソースではなく、API 経由でのみ利用できます。
私たちは、オープンソースの 768 次元 MPNet 埋め込みを text-ada-002 埋め込みに変換するために、単純なニューラル ネットワークをトレーニングしました。
私たちは 50,000 件のオンライン食品レビューのサブセットを編集しました。
各レビューの MPNet と text-ada-002 の埋め込みを計算し、75 エポックにわたって単純なニューラル ネットワークをトレーニングしました。
ニューラル ネットワークは、特定の MPNET 埋め込みに対応する text-ada-002 埋め込みを予測するように設計されています。
私たちのモデルは、保持されたテスト データセット内の 10,000 件の未確認レビューで平均コサイン類似度 0.932 を達成しました。
text-ada-002-embedded レビューに対するベクトル検索の予測埋め込みの品質を手動で評価しました。
実際の text-ada-002 埋め込みほどではありませんが、予測された埋め込みは関連性の高いレビューを取得できました。
私たちの最終モデルである Vec2Vec は軽量 (<80 MB) で高速です。 今後のステップには、より優れたパフォーマンスを達成するために、より洗練されたアーキテクチャとペアになった埋め込みの大規模なデータセットを使用してニューラル ネットワークをトレーニングすることが含まれます。 埋め込みスペース間で変換および調整する機能は、相互運用性、独自モデルへの依存の制限、データプライバシーの保護、コストの削減、およびオフライン操作に役立つ可能性があります。

要約(オリジナル)

Vector embeddings have become ubiquitous tools for many language-related tasks. A leading embedding model is OpenAI’s text-ada-002 which can embed approximately 6,000 words into a 1,536-dimensional vector. While powerful, text-ada-002 is not open source and is only available via API. We trained a simple neural network to convert open-source 768-dimensional MPNet embeddings into text-ada-002 embeddings. We compiled a subset of 50,000 online food reviews. We calculated MPNet and text-ada-002 embeddings for each review and trained a simple neural network to for 75 epochs. The neural network was designed to predict the corresponding text-ada-002 embedding for a given MPNET embedding. Our model achieved an average cosine similarity of 0.932 on 10,000 unseen reviews in our held-out test dataset. We manually assessed the quality of our predicted embeddings for vector search over text-ada-002-embedded reviews. While not as good as real text-ada-002 embeddings, predicted embeddings were able to retrieve highly relevant reviews. Our final model, Vec2Vec, is lightweight (<80 MB) and fast. Future steps include training a neural network with a more sophisticated architecture and a larger dataset of paired embeddings to achieve greater performance. The ability to convert between and align embedding spaces may be helpful for interoperability, limiting dependence on proprietary models, protecting data privacy, reducing costs, and offline operations.

arxiv情報

著者 Andrew Kean Gao
発行日 2023-06-22 06:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, I.2.7 パーマリンク