FewTopNER: Integrating Few-Shot Learning with Topic Modeling and Named Entity Recognition in a Multilingual Framework

要約

FewTopNERは、少数ショット名前付き固有表現認識(NER)とトピックを考慮した文脈モデリングを統合し、言語横断的かつ低リソースシナリオの課題に対処する新しいフレームワークである。FewTopNERは、XLM-RoBERTaに基づく共有多言語エンコーダを活用し、言語固有の校正メカニズムで補強することで、ロバストな文脈埋め込みを生成する。アーキテクチャは、シーケンスラベリングのためにBiLSTMと条件付き確率場を採用したプロトタイプベースのエンティティ認識ブランチと、ハイブリッドな確率的手法とニューラル手法によって文書レベルの意味特徴を抽出するトピックモデリングブランチで構成される。クロスタスクブリッジにより、エンティティ表現とトピック表現間の動的な双方向の注意と特徴の融合が促進され、グローバルな意味文脈を取り込むことでエンティティの曖昧性解消が強化される。英語、フランス語、スペイン語、ドイツ語、イタリア語の多言語ベンチマークを用いた実証評価により、FewTopNERが既存の最先端少数ショットNERモデルを大幅に上回ることが実証された。特に、このフレームワークはF1スコアで2.5-4.0ポイントの改善を達成し、正規化されたポイントワイズ相互情報量によって測定されるトピックの一貫性が強化されている。アブレーション研究により、共有エンコーダとクロスタスク統合メカニズムが全体的な性能に大きく寄与していることがさらに確認された。これらの結果は、トピックを考慮したコンテキストを少数ショットNERに組み込むことの有効性を強調し、低リソース環境における頑健なクロスリンガルアプリケーションとしてのFewTopNERの可能性を強調するものである。

要約(オリジナル)

We introduce FewTopNER, a novel framework that integrates few-shot named entity recognition (NER) with topic-aware contextual modeling to address the challenges of cross-lingual and low-resource scenarios. FewTopNER leverages a shared multilingual encoder based on XLM-RoBERTa, augmented with language-specific calibration mechanisms, to generate robust contextual embeddings. The architecture comprises a prototype-based entity recognition branch, employing BiLSTM and Conditional Random Fields for sequence labeling, and a topic modeling branch that extracts document-level semantic features through hybrid probabilistic and neural methods. A cross-task bridge facilitates dynamic bidirectional attention and feature fusion between entity and topic representations, thereby enhancing entity disambiguation by incorporating global semantic context. Empirical evaluations on multilingual benchmarks across English, French, Spanish, German, and Italian demonstrate that FewTopNER significantly outperforms existing state-of-the-art few-shot NER models. In particular, the framework achieves improvements of 2.5-4.0 percentage points in F1 score and exhibits enhanced topic coherence, as measured by normalized pointwise mutual information. Ablation studies further confirm the critical contributions of the shared encoder and cross-task integration mechanisms to the overall performance. These results underscore the efficacy of incorporating topic-aware context into few-shot NER and highlight the potential of FewTopNER for robust cross-lingual applications in low-resource settings.

arxiv情報

著者 Ibrahim Bouabdallaoui,Fatima Guerouate,Samya Bouhaddour,Chaimae Saadi,Mohammed Sbihi
発行日 2025-02-04 15:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク