要約
大規模言語モデル (LLM) は膨大な量のデータでトレーニングされ、そのほとんどはインターネットから自動的に収集されます。
このデータには、膨大な量の一般知識を収めた百科事典的な文書 (Wikipedia など) が含まれていますが、LLM の評価に使用されるベンチマーク データセットと重複する可能性もあります。
したがって、トレーニング セットに漏れた可能性のあるテスト分割でモデルを評価すると、誤解を招く結論が得られる傾向があります。
言語モデルの健全な評価を促進するために、質問応答およびトピック検索タスクに適した RepLiQA という名前の新しいテスト データセットを導入します。
RepLiQA は、5 つに分割されたテスト セットのコレクションであり、そのうちの 4 つは、この公開前にインターネットにリリースされておらず、LLM API に公開されていませんでした。
RepLiQA の各サンプルは、(1) 人間のアノテーターによって作成され、インターネットに存在しない架空のシナリオ (ニュース記事など) を描いた参照文書で構成されています。
(2) 文書のトピックに関する質問。
(3) 文書内の情報から直接導き出された真実の回答。
(4) 回答を含む参照文書から抽出された段落。
したがって、モデルが提供されたドキュメント内で関連するコンテンツを見つけることができる場合にのみ、正確な回答を生成できます。
コンテキスト条件付き言語モデリング設定におけるさまざまなタイプやサイズのモデル間のパフォーマンスの違いを明らかにするために、いくつかの最先端の LLM で構成される大規模なベンチマークを実行します。
リリースされた RepLiQA の分割は、https://huggingface.co/datasets/ServiceNow/repliqa で見つけることができます。
要約(オリジナル)
Large Language Models (LLMs) are trained on vast amounts of data, most of which is automatically scraped from the internet. This data includes encyclopedic documents that harbor a vast amount of general knowledge (e.g., Wikipedia) but also potentially overlap with benchmark datasets used for evaluating LLMs. Consequently, evaluating models on test splits that might have leaked into the training set is prone to misleading conclusions. To foster sound evaluation of language models, we introduce a new test dataset named RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a collection of five splits of test sets, four of which have not been released to the internet or exposed to LLM APIs prior to this publication. Each sample in RepLiQA comprises (1) a reference document crafted by a human annotator and depicting an imaginary scenario (e.g., a news article) absent from the internet; (2) a question about the document’s topic; (3) a ground-truth answer derived directly from the information in the document; and (4) the paragraph extracted from the reference document containing the answer. As such, accurate answers can only be generated if a model can find relevant content within the provided document. We run a large-scale benchmark comprising several state-of-the-art LLMs to uncover differences in performance across models of various types and sizes in a context-conditional language modeling setting. Released splits of RepLiQA can be found here: https://huggingface.co/datasets/ServiceNow/repliqa.
arxiv情報
著者 | Joao Monteiro,Pierre-Andre Noel,Etienne Marcotte,Sai Rajeswar,Valentina Zantedeschi,David Vazquez,Nicolas Chapados,Christopher Pal,Perouz Taslakian |
発行日 | 2024-06-17 17:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google