GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration

要約

現代のNLPでは、大規模なテキストコーパスを迅速かつユーザーフレンドリーな質的分析するためのツールを提供することが急務であると考え、TB規模の文書コレクションに取り組む長い歴史を持つ研究分野である情報検索(IR)の領域から、成熟し十分にテストされた方法に目を向けることを提案します。我々は、再現可能なIR研究のために広く使われているツールキットであるPyseriniを、オープンソースのAIライブラリや成果物のHugging Faceエコシステムとどのように統合できるかを議論します。我々は、両プラットフォームの既存の機能を活用しながら、さらに統合を促進する新しい機能を提案します。私たちの目標は、NLP研究者がデータ分析のニーズに応える検索ベースのインストルメンテーションを簡単かつ俊敏に開発できるようなツールを提供することです。GitHub(https://github.com/huggingface/gaia)で公開されているJupyter Notebookベースの相互運用性の中核となる機能についての解説を含みます。次に、NLPにおける質的データ解析のための強力なツールを作成するために、私たちが提示したアイデアをどのように運用できるかを示します。GAIAサーチは、4つの一般的な大規模テキストコレクションにアクセスできる、先に述べた原則に従って作られたサーチエンジンです。GAIAは、我々が議論する方法論の可能性を示すだけでなく、データセットをトレーニングに使用する前に理解することを目的とするNLP研究者が活用できるスタンドアロンの質的分析ツールとしての役割も果たしているのです。GAIAはHugging Face Spaces – https://huggingface.co/spaces/spacerini/gaia でライブホストされています。

要約(オリジナル)

Noticing the urgent need to provide tools for fast and user-friendly qualitative analysis of large-scale textual corpora of the modern NLP, we propose to turn to the mature and well-tested methods from the domain of Information Retrieval (IR) – a research field with a long history of tackling TB-scale document collections. We discuss how Pyserini – a widely used toolkit for reproducible IR research can be integrated with the Hugging Face ecosystem of open-source AI libraries and artifacts. We leverage the existing functionalities of both platforms while proposing novel features further facilitating their integration. Our goal is to give NLP researchers tools that will allow them to develop retrieval-based instrumentation for their data analytics needs with ease and agility. We include a Jupyter Notebook-based walk through the core interoperability features, available on GitHub at https://github.com/huggingface/gaia. We then demonstrate how the ideas we present can be operationalized to create a powerful tool for qualitative data analysis in NLP. We present GAIA Search – a search engine built following previously laid out principles, giving access to four popular large-scale text collections. GAIA serves a dual purpose of illustrating the potential of methodologies we discuss but also as a standalone qualitative analysis tool that can be leveraged by NLP researchers aiming to understand datasets prior to using them in training. GAIA is hosted live on Hugging Face Spaces – https://huggingface.co/spaces/spacerini/gaia.

arxiv情報

著者 Aleksandra Piktus,Odunayo Ogundepo,Christopher Akiki,Akintunde Oladipo,Xinyu Zhang,Hailey Schoelkopf,Stella Biderman,Martin Potthast,Jimmy Lin
発行日 2023-06-02 12:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク