Evaluating Embedding APIs for Information Retrieval

要約

言語モデルのサイズが増大し続けるため、コミュニティへの広範な利用が制限され、そのため多くの企業が API を介して大規模な言語モデルへのアクセスを提供するようになりました。
高密度検索に適した特定のタイプの 1 つは、入力テキストのベクトル表現を構築するセマンティック埋め込みサービスです。
公開されている API の数が増える中、このペーパーの目的は、現実的な検索シナリオで既存のサービスを分析し、実務者や研究者がニーズに応じて適切なサービスを見つけられるように支援することです。
具体的には、ドメインの一般化と多言語検索に関する既存のセマンティック埋め込み API の機能を調査します。
この目的のために、私たちはこれらのサービスを BEIR と MIRACL という 2 つの標準ベンチマークで評価します。
API を使用して BM25 の結果を再ランク付けすることは、予算に優しいアプローチであり、第一段階の取得者として採用する標準的な方法とは対照的に、英語で最も効果的であることがわかりました。
英語以外の検索の場合、再ランキングによって結果は改善されますが、コストは高くなりますが、BM25 を備えたハイブリッド モデルが最適に機能します。
私たちの研究が、検索やより広範な情報アクセスにとって重要なセマンティック埋め込み API を評価するための基礎となることを願っています。

要約(オリジナル)

The ever-increasing size of language models curtails their widespread availability to the community, thereby galvanizing many companies into offering access to large language models through APIs. One particular type, suitable for dense retrieval, is a semantic embedding service that builds vector representations of input text. With a growing number of publicly available APIs, our goal in this paper is to analyze existing offerings in realistic retrieval scenarios, to assist practitioners and researchers in finding suitable services according to their needs. Specifically, we investigate the capabilities of existing semantic embedding APIs on domain generalization and multilingual retrieval. For this purpose, we evaluate these services on two standard benchmarks, BEIR and MIRACL. We find that re-ranking BM25 results using the APIs is a budget-friendly approach and is most effective in English, in contrast to the standard practice of employing them as first-stage retrievers. For non-English retrieval, re-ranking still improves the results, but a hybrid model with BM25 works best, albeit at a higher cost. We hope our work lays the groundwork for evaluating semantic embedding APIs that are critical in search and more broadly, for information access.

arxiv情報

著者 Ehsan Kamalloo,Xinyu Zhang,Odunayo Ogundepo,Nandan Thakur,David Alfonso-Hermelo,Mehdi Rezagholizadeh,Jimmy Lin
発行日 2023-07-06 18:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク