Chinese Sequence Labeling with Semi-Supervised Boundary-Aware Language Model Pre-training

要約

中国語シーケンスのラベル付けタスクは、正確な単語境界境界に大きく依存します。
現在の事前トレーニング済み言語モデル (PLM) は、これらのタスクに関して大幅な改善を達成していますが、モデリング プロセスに境界情報を明示的に組み込むことはほとんどありません。
これの例外は BABERT であり、教師なしの統計境界情報が中国の BERT の事前トレーニング目標に組み込まれています。
このアプローチに基づいて、BABERT の学習を強化するために教師付きの高品質な境界情報を入力し、半教師付き境界認識 PLM を開発しました。
PLM の境界をエンコードする能力を評価するために、シンプルかつ効果的な新しい「境界情報メトリック」を導入します。
このメトリックにより、タスク固有の微調整を行わずに、さまざまな PLM を比較できます。
中国語配列ラベル付けデータセットに関する実験結果は、改良された BABERT バリアントが、これらのタスクだけでなく、より広範な中国語自然言語理解タスクにわたってバニラ バージョンよりも優れていることを示しています。
さらに、私たちが提案した指標は、PLM の境界認識を評価する便利で正確な手段を提供します。

要約(オリジナル)

Chinese sequence labeling tasks are heavily reliant on accurate word boundary demarcation. Although current pre-trained language models (PLMs) have achieved substantial gains on these tasks, they rarely explicitly incorporate boundary information into the modeling process. An exception to this is BABERT, which incorporates unsupervised statistical boundary information into Chinese BERT’s pre-training objectives. Building upon this approach, we input supervised high-quality boundary information to enhance BABERT’s learning, developing a semi-supervised boundary-aware PLM. To assess PLMs’ ability to encode boundaries, we introduce a novel “Boundary Information Metric” that is both simple and effective. This metric allows comparison of different PLMs without task-specific fine-tuning. Experimental results on Chinese sequence labeling datasets demonstrate that the improved BABERT variant outperforms the vanilla version, not only on these tasks but also more broadly across a range of Chinese natural language understanding tasks. Additionally, our proposed metric offers a convenient and accurate means of evaluating PLMs’ boundary awareness.

arxiv情報

著者 Longhui Zhang,Dingkun Long,Meishan Zhang,Yanzhao Zhang,Pengjun Xie,Min Zhang
発行日 2024-04-08 14:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク