The ROOTS Search Tool: Data Transparency for LLMs

要約

ROOTS は、BLOOM のトレーニング用に開発された 1.6 TB の多言語テキスト コーパスです。BLOOM は、相応のデータ ガバナンスの取り組みを明示的に伴う現在最大の言語モデルです。
これらの取り組みの継続として、ROOTS 検索ツールを紹介します。これは、ROOTS コーパス全体にわたる検索エンジンで、あいまい検索と完全一致検索の両方の機能を提供します。
ROOTS は、この方法で調査できるこれまでで最大のコーパスです。
ROOTS 検索ツールはオープンソースであり、Hugging Face Spaces で利用できます。
実装と、ツ​​ールの使用例について説明します。

要約(オリジナル)

ROOTS is a 1.6TB multilingual text corpus developed for the training of BLOOM, currently the largest language model explicitly accompanied by commensurate data governance efforts. In continuation of these efforts, we present the ROOTS Search Tool: a search engine over the entire ROOTS corpus offering both fuzzy and exact search capabilities. ROOTS is the largest corpus to date that can be investigated this way. The ROOTS Search Tool is open-sourced and available on Hugging Face Spaces. We describe our implementation and the possible use cases of our tool.

arxiv情報

著者 Aleksandra Piktus,Christopher Akiki,Paulo Villegas,Hugo Laurençon,Gérard Dupont,Alexandra Sasha Luccioni,Yacine Jernite,Anna Rogers
発行日 2023-02-27 18:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク