Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views

要約

時間的概念のドリフトとは、時間の経過とともに変化するデータの問題を指します。
NLP では、言語 (例: 新しい表現、意味の変化) と事実に関する知識 (例: 新しい概念、更新された事実) が時間とともに進化することを伴います。
後者に焦点を当て、時間概念ドリフトの影響を評価するために設計された一連のテストで、11 ドルの事前トレーニング済みマスク言語モデル (MLM) をベンチマークします。
現実世界の進化する事実の更新。
具体的には、(1) ウィキデータからの事実データの任意の時間粒度 (月、四半期、年など) の一時的なテスト セットを動的に作成し、(2) テストの細かい分割 (更新、新規、
(3) 3 つの異なる方法で MLM を評価します (シングル トークン プロービング、マルチ トークン生成、MLM スコアリング)。
以前の作業とは対照的に、私たちのフレームワークは、評価の複数のビューを活用することにより、MLM が時間の経過とともにどれほど堅牢であるかを明らかにし、それが時代遅れになった場合にシグナルを提供することを目的としています。

要約(オリジナル)

Temporal concept drift refers to the problem of data changing over time. In NLP, that would entail that language (e.g. new expressions, meaning shifts) and factual knowledge (e.g. new concepts, updated facts) evolve over time. Focusing on the latter, we benchmark $11$ pretrained masked language models (MLMs) on a series of tests designed to evaluate the effect of temporal concept drift, as it is crucial that widely used language models remain up-to-date with the ever-evolving factual updates of the real world. Specifically, we provide a holistic framework that (1) dynamically creates temporal test sets of any time granularity (e.g. month, quarter, year) of factual data from Wikidata, (2) constructs fine-grained splits of tests (e.g. updated, new, unchanged facts) to ensure comprehensive analysis, and (3) evaluates MLMs in three distinct ways (single-token probing, multi-token generation, MLM scoring). In contrast to prior work, our framework aims to unveil how robust an MLM is over time and thus to provide a signal in case it has become outdated, by leveraging multiple views of evaluation.

arxiv情報

著者 Katerina Margatina,Shuai Wang,Yogarshi Vyas,Neha Anna John,Yassine Benajiba,Miguel Ballesteros
発行日 2023-02-23 19:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク