Koala: An Index for Quantifying Overlaps with Pre-training Corpora

要約

ごく最近、大規模言語モデル (LLM) のダウンストリーム動作における事前トレーニング データの役割を調査することに、より多くの注意が向けられています。
重要性にもかかわらず、大規模な事前訓練コーパスのそのような分析をサポートする公開ツールはありません。
この分野での研究を支援するために、非常に効率的な圧縮率と検索サポートを備えた圧縮接尾辞配列を使用して、大規模な事前トレーニング コーパスの検索可能なインデックスである Koala を立ち上げました。
最初のリリースでは、OPT 175B 事前トレーニング データの公開割合をインデックス化します。
Koala は、LLM からの出力の記憶の程度を評価するだけでなく、現在および将来のベンチマークでフォレンジック分析を行うためのフレームワークを提供します。
Koala は、https://koala-index.erc.monash.edu/ で公開されています。

要約(オリジナル)

In very recent years more attention has been placed on probing the role of pre-training data in Large Language Models (LLMs) downstream behaviour. Despite the importance, there is no public tool that supports such analysis of pre-training corpora at large scale. To help research in this space, we launch Koala, a searchable index over large pre-training corpora using compressed suffix arrays with highly efficient compression rate and search support. In its first release we index the public proportion of OPT 175B pre-training data. Koala provides a framework to do forensic analysis on the current and future benchmarks as well as to assess the degree of memorization in the output from the LLMs. Koala is available for public use at https://koala-index.erc.monash.edu/.

arxiv情報

著者 Thuy-Trang Vu,Xuanli He,Gholamreza Haffari,Ehsan Shareghi
発行日 2023-03-26 16:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク