Description-Based Text Similarity

要約

特定のセマンティクスを持つテキストを識別することは、情報を求める多くのシナリオの中心となります。
ベクトル埋め込みに対する類似性検索がこの機能の中心であるように見えますが、現在のテキスト埋め込みに反映される類似性はコーパス主導型であり、多くのユースケースにとって一貫性がなく、最適とは言えません。
では、テキストを効果的に検索するための類似性の良い概念とは何でしょうか?
私たちは、テキストの内容の抽象的な説明と、それに対応する \emph{説明に基づく類似性} の概念に基づいてテキストを検索する必要性を認識します。
現在のテキスト埋め込みが不適切であることを実証し、標準的な最近傍検索で使用すると大幅に改善される代替モデルを提案します。
このモデルは、LLM のプロンプトを通じてソースされた正と負のペアを使用してトレーニングされ、元のモデルを使用してすぐには不可能な新しい機能を作成するために LLM からのデータをどのように使用できるかを示します。

要約(オリジナル)

Identifying texts with a given semantics is central for many information seeking scenarios. Similarity search over vector embeddings appear to be central to this ability, yet the similarity reflected in current text embeddings is corpus-driven, and is inconsistent and sub-optimal for many use cases. What, then, is a good notion of similarity for effective retrieval of text? We identify the need to search for texts based on abstract descriptions of their content, and the corresponding notion of \emph{description based similarity}. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM, demonstrating how data from LLMs can be used for creating new capabilities not immediately possible using the original model.

arxiv情報

著者 Shauli Ravfogel,Valentina Pyatkin,Amir DN Cohen,Avshalom Manevich,Yoav Goldberg
発行日 2024-04-26 08:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク