Language Model as an Annotator: Unsupervised Context-aware Quality Phrase Generation

要約

フレーズ マイニングは、コンテキストから質の高いフレーズを特定することを目的とした基本的なテキスト マイニング タスクです。
それにもかかわらず、広範なゴールドラベルデータセットが不足しており、専門家による多大な注釈作業が必要となるため、このタスクは非常に困難なものとなっています。
さらに、高品質フレーズの出現頻度が低く、ドメイン固有の性質があるため、このタスクに対処する際にさらなる課題が生じています。
この論文では、大規模な事前トレーニング済み言語モデル (LM) に基づいて構築された、新しい教師なしコンテキスト認識型の高品質フレーズ マイニング フレームワークである LMPhrase を提案します。
具体的には、まず、事前トレーニング済み言語モデル BERT (アノテーターという造語) 上で摂動マスキングと呼ばれるパラメーターを使用しないプローブ手法を採用することで、高品質のフレーズをシルバー ラベルとしてマイニングします。
一般的な統計ベースの方法や遠隔監視された方法とは対照的に、事前トレーニングされた大規模な言語モデルから派生した当社のシルバー ラベルは、LM に含まれる豊富なコンテキスト情報を考慮に入れます。
その結果、高品質なフレーズの有益性、一致性、完全性を維持する上で明確な利点がもたらされます。
第 2 に、識別スパン予測モデルのトレーニングは大量の注釈付きデータに大きく依存しており、シルバー ラベルの過剰適合のリスクに直面する可能性があります。
あるいは、シルバー ラベル (ジェネレーターという造語) を使用して Sequence-to-Sequence の事前トレーニング済み言語モデル BART を直接微調整することにより、フレーズ タグ付けタスクをシーケンス生成問題として形式化します。
最後に、アノテーターとジェネレーターの両方からの高品質のフレーズを、それらの相補的な性質と明確な特性を考慮して、最終的な予測としてマージします。
広範な実験により、当社の LMPhrase は、2 つの異なる粒度のフレーズ マイニング タスクにわたって一貫して既存のすべての競合他社を上回るパフォーマンスを示しています。各タスクは 2 つの異なるドメイン データセットでテストされます。

要約(オリジナル)

Phrase mining is a fundamental text mining task that aims to identify quality phrases from context. Nevertheless, the scarcity of extensive gold labels datasets, demanding substantial annotation efforts from experts, renders this task exceptionally challenging. Furthermore, the emerging, infrequent, and domain-specific nature of quality phrases presents further challenges in dealing with this task. In this paper, we propose LMPhrase, a novel unsupervised context-aware quality phrase mining framework built upon large pre-trained language models (LMs). Specifically, we first mine quality phrases as silver labels by employing a parameter-free probing technique called Perturbed Masking on the pre-trained language model BERT (coined as Annotator). In contrast to typical statistic-based or distantly-supervised methods, our silver labels, derived from large pre-trained language models, take into account rich contextual information contained in the LMs. As a result, they bring distinct advantages in preserving informativeness, concordance, and completeness of quality phrases. Secondly, training a discriminative span prediction model heavily relies on massive annotated data and is likely to face the risk of overfitting silver labels. Alternatively, we formalize phrase tagging task as the sequence generation problem by directly fine-tuning on the Sequence-to-Sequence pre-trained language model BART with silver labels (coined as Generator). Finally, we merge the quality phrases from both the Annotator and Generator as the final predictions, considering their complementary nature and distinct characteristics. Extensive experiments show that our LMPhrase consistently outperforms all the existing competitors across two different granularity phrase mining tasks, where each task is tested on two different domain datasets.

arxiv情報

著者 Zhihao Zhang,Yuan Zuo,Chenghua Lin,Junjie Wu
発行日 2023-12-28 20:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク