Few-Shot Domain Adaptation for Named-Entity Recognition via Joint Constrained k-Means and Subspace Selection

要約

固有表現認識 (NER) は通常、大規模な注釈付きデータセットを必要とするタスクであるため、さまざまな実体定義を持つドメイン全体での適用性が制限されます。
この文書では、最小限の監督で新しい領域に知識を移転することを目的とした、少数ショット NER について説明します。
限られた注釈付きデータのみに依存するこれまでのアプローチとは異なり、小規模なラベル付きデータセットと大量のラベルなしデータを組み合わせる弱い教師ありアルゴリズムを提案します。
私たちの方法は、ラベル監視、クラスターサイズの制約、およびドメイン固有の識別的な部分空間の選択を備えたk-meansアルゴリズムを拡張します。
この統合フレームワークは、いくつかの英国のデータセットでの少数ショット NER で最先端の結果を達成します。

要約(オリジナル)

Named-entity recognition (NER) is a task that typically requires large annotated datasets, which limits its applicability across domains with varying entity definitions. This paper addresses few-shot NER, aiming to transfer knowledge to new domains with minimal supervision. Unlike previous approaches that rely solely on limited annotated data, we propose a weakly supervised algorithm that combines small labeled datasets with large amounts of unlabeled data. Our method extends the k-means algorithm with label supervision, cluster size constraints and domain-specific discriminative subspace selection. This unified framework achieves state-of-the-art results in few-shot NER on several English datasets.

arxiv情報

著者 Ayoub Hammal,Benno Uthayasooriyar,Caio Corro
発行日 2024-12-12 16:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク