要約
シーケンスのラベル付けは、特に中国語のような文字密度の高い言語では、低リソースのドメイン固有のシナリオで重要な課題のままです。
既存の方法は、主にモデルの理解を高め、データの多様性を改善してパフォーマンスを向上させることに焦点を当てています。
ただし、これらのアプローチは、ドメイン固有のコンテキストにおけるモデルの適用性とセマンティック分布バイアスに依然として苦労しています。
これらの制限を克服するために、LLMベースの知識強化ワークフローと、リッチで効率的な抽出(KnowFree)モデルのためのスパンベースの知識融合を組み合わせた新しいフレームワークを提案します。
当社のワークフローは、説明プロンプトを使用して、ターゲットエンティティの正確なコンテキスト解釈を生成し、セマンティックバイアスを効果的に緩和し、モデルのコンテキスト理解を濃縮します。
KnowFreeモデルは、拡張ラベル機能をさらに統合し、推論中に外部の知識に依存することなく、効率的なネストされたエンティティ抽出を可能にします。
複数の中国ドメイン固有のシーケンスラベル付けデータセットの実験は、私たちのアプローチが最先端のパフォーマンスを達成し、低リソース設定によってもたらされる課題に効果的に対処することを示しています。
要約(オリジナル)
Sequence labeling remains a significant challenge in low-resource, domain-specific scenarios, particularly for character-dense languages like Chinese. Existing methods primarily focus on enhancing model comprehension and improving data diversity to boost performance. However, these approaches still struggle with inadequate model applicability and semantic distribution biases in domain-specific contexts. To overcome these limitations, we propose a novel framework that combines an LLM-based knowledge enhancement workflow with a span-based Knowledge Fusion for Rich and Efficient Extraction (KnowFREE) model. Our workflow employs explanation prompts to generate precise contextual interpretations of target entities, effectively mitigating semantic biases and enriching the model’s contextual understanding. The KnowFREE model further integrates extension label features, enabling efficient nested entity extraction without relying on external knowledge during inference. Experiments on multiple Chinese domain-specific sequence labeling datasets demonstrate that our approach achieves state-of-the-art performance, effectively addressing the challenges posed by low-resource settings.
arxiv情報
著者 | Peichao Lai,Jiaxin Gan,Feiyang Ye,Yilei Wang,Bin Cui |
発行日 | 2025-01-31 12:39:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google