Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

要約

最近の事前トレーニング済みトランスフォーマー ベースのモデルは、固有表現認識 (NER) を高い精度で実行できますが、小説全体などの長い文書に適用すると、その範囲が限られているという問題が残ります。
この問題を軽減するための解決策は、関連するコンテキストをドキュメント レベルで取得することです。
残念ながら、このようなタスクには監督が欠けているため、監督なしのアプローチで妥協する必要があります。
代わりに、命令調整された大規模言語モデル (LLM) である Alpaca を使用して合成コンテキスト検索トレーニング データセットを生成することを提案します。
このデータセットを使用して、NER に関連するコンテキストを見つけることができる BERT モデルに基づいてニューラル コンテキスト取得プログラムをトレーニングします。
私たちの方法が、40 冊の書籍の最初の章で構成される英文学データセットに対する NER タスクのいくつかの検索ベースラインよりも優れていることを示します。

要約(オリジナル)

While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.

arxiv情報

著者 Arthur Amalvy,Vincent Labatut,Richard Dufour
発行日 2024-04-08 13:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク