Dated Data: Tracing Knowledge Cutoffs in Large Language Models

要約

リリースされた大規模言語モデル (LLM) は、多くの場合、主張されている知識の終了日、またはトレーニング データが収集された日付と組み合わせられます。
このような情報は、LLM が最新の情報を提供する必要があるアプリケーションにとって非常に重要です。
ただし、このステートメントは表面をなぞっただけです。トレーニング データ内のすべてのリソースは同じナレッジ カットオフ日を共有しますか?
これらのサブセットに関するモデルの実証された知識は、カットオフ日と厳密に一致していますか?
この作業では、有効カットオフの概念を定義します。
これは、LLM デザイナーが報告するカットオフとは異なり、サブリソースとトピックに個別に適用されます。
我々は、データのバージョン全体を調査することによって、LLM のリソースレベルの時間的調整における効果的なカットオフを推定する簡単なアプローチを提案します。
この分析を使用すると、実効カットオフは報告されたカットオフと異なることが多いことがわかります。
この観察の根本原因を理解するために、オープンな事前トレーニング データセットに対して直接大規模分析を実施します。
私たちの分析により、これらの不一致の 2 つの理由が明らかになりました。(1) 新しいダンプ内の大量の古いデータによる CommonCrawl データの時間的な偏り、および (2) 意味上の重複と語彙上の類似重複を含む LLM 重複排除スキームの複雑さです。
全体として、私たちの結果は、知識の遮断は思ったほど単純ではなく、LLM データセットのキュレーターと、これらのモデルからの情報を使用しようとする実践者の両方が注意を払う必要があることを示しています。

要約(オリジナル)

Released Large Language Models (LLMs) are often paired with a claimed knowledge cutoff date, or the dates at which training data was gathered. Such information is crucial for applications where the LLM must provide up to date information. However, this statement only scratches the surface: do all resources in the training data share the same knowledge cutoff date? Does the model’s demonstrated knowledge for these subsets closely align to their cutoff dates? In this work, we define the notion of an effective cutoff. This is distinct from the LLM designer reported cutoff and applies separately to sub-resources and topics. We propose a simple approach to estimate effective cutoffs on the resource-level temporal alignment of an LLM by probing across versions of the data. Using this analysis, we find that effective cutoffs often differ from reported cutoffs. To understand the root cause of this observation, we conduct a direct large-scale analysis on open pre-training datasets. Our analysis reveals two reasons for these inconsistencies: (1) temporal biases of CommonCrawl data due to non-trivial amounts of old data in new dumps and (2) complications in LLM deduplication schemes involving semantic duplicates and lexical near-duplicates. Overall, our results show that knowledge cutoffs are not as simple as they have seemed and that care must be taken both by LLM dataset curators as well as practitioners who seek to use information from these models.

arxiv情報

著者 Jeffrey Cheng,Marc Marone,Orion Weller,Dawn Lawrie,Daniel Khashabi,Benjamin Van Durme
発行日 2024-09-17 17:25:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク