Spacerini: Plug-and-play Search Engines with Pyserini and Hugging Face

要約

大規模な研究データセットの定性分析を容易にするように設計された、対話型検索アプリケーションのシームレスな構築と展開のためのモジュラー フレームワークである Spacerini を紹介します。
Spacerini は、Pyserini ツールキットと Hugging Face エコシステムの両方の機能を統合して、テキスト コレクションのインデックス作成を容易にし、それらをアドホック探索用の検索エンジンとして展開し、関連するデータ ポイントの検索を迅速かつ効率的にします。
ユーザーフレンドリーなインターフェースにより、大量のデータセットをコードなしで検索できるため、テキスト コレクションを定性的に監査したい人なら誰でも Spacerini に幅広くアクセスできます。
これは、シンプルかつインタラクティブな方法でインデックスの機能を実証することを目的とする IR 研究者と、大規模な言語モデルの失敗モードをよりよく理解し、監査しようとする NLP 研究者の両方に役立ちます。
このフレームワークはオープン ソースであり、GitHub (https://github.com/castorini/hf-spacerini) で入手できます。これには、ローカルおよび Web 検索アプリケーションの読み込み、前処理、インデックス作成、デプロイを行うためのユーティリティが含まれています。
https://hf.co/spacerini.

要約(オリジナル)

We present Spacerini, a modular framework for seamless building and deployment of interactive search applications, designed to facilitate the qualitative analysis of large scale research datasets. Spacerini integrates features from both the Pyserini toolkit and the Hugging Face ecosystem to ease the indexing text collections and deploy them as search engines for ad-hoc exploration and to make the retrieval of relevant data points quick and efficient. The user-friendly interface enables searching through massive datasets in a no-code fashion, making Spacerini broadly accessible to anyone looking to qualitatively audit their text collections. This is useful both to IR~researchers aiming to demonstrate the capabilities of their indexes in a simple and interactive way, and to NLP~researchers looking to better understand and audit the failure modes of large language models. The framework is open source and available on GitHub: https://github.com/castorini/hf-spacerini, and includes utilities to load, pre-process, index, and deploy local and web search applications. A portfolio of applications created with Spacerini for a multitude of use cases can be found by visiting https://hf.co/spacerini.

arxiv情報

著者 Christopher Akiki,Odunayo Ogundepo,Aleksandra Piktus,Xinyu Zhang,Akintunde Oladipo,Jimmy Lin,Martin Potthast
発行日 2023-02-28 12:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク