WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset

要約

言語モデルに支配されている現在の NLP コンテキストにおける根本的な課題は、新しい情報を「学習」するための現在のアーキテクチャの柔軟性のなさから生じています。
継続学習やパラメータ効率の高い微調整などのモデル中心のソリューションは利用可能ですが、言語や世界の変化をどのように確実に識別するかという問題は依然として残ります。
この論文では、Wikipedia から抽出されたタイムスタンプ付きの定義のペアから派生したデータセットである WikiTiDe を提案します。
私たちは、このようなリソースは、通時的な NLP の高速化、特に、概念、イベント、または名前付きエンティティに関するコア更新の知識リソースをスキャンできるトレーニング モデルに役立つ可能性があると主張します。
私たちが提案するエンドツーエンドの方法は完全に自動であり、ブートストラップ アルゴリズムを活用して高品質のデータセットを段階的に作成します。
私たちの結果は、WikiTiDe のシード バージョンをブートストラップすることで、より適切に微調整されたモデルが得られることを示唆しています。
また、多くの下流タスクで微調整されたモデルを活用し、競争力のあるベースラインに関して有望な結果を示しています。

要約(オリジナル)

A fundamental challenge in the current NLP context, dominated by language models, comes from the inflexibility of current architectures to ‘learn’ new information. While model-centric solutions like continual learning or parameter-efficient fine tuning are available, the question still remains of how to reliably identify changes in language or in the world. In this paper, we propose WikiTiDe, a dataset derived from pairs of timestamped definitions extracted from Wikipedia. We argue that such resource can be helpful for accelerating diachronic NLP, specifically, for training models able to scan knowledge resources for core updates concerning a concept, an event, or a named entity. Our proposed end-to-end method is fully automatic, and leverages a bootstrapping algorithm for gradually creating a high-quality dataset. Our results suggest that bootstrapping the seed version of WikiTiDe leads to better fine-tuned models. We also leverage fine-tuned models in a number of downstream tasks, showing promising results with respect to competitive baselines.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2023-08-18 12:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク