Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition

要約

我々は、豊かな形態学と独特の書記体系を特徴とする言語である韓国語にバイト ペア エンコーディング (BPE) を適用する際の課題に対処するために、サブ文字分解を利用した形態素認識サブワード トークン化手法を導入します。
私たちのアプローチは、言語の正確さと事前トレーニング済み言語モデル (PLM) の計算効率のバランスをとります。
私たちの評価では、この手法が全体的に良好なパフォーマンスを達成し、特に NIKL-CoLA の構文タスクの結果が向上していることが示されています。
これは、形態素型情報を統合することで言語モデルの構文的および意味論的な能力を強化できることを示唆しており、より言語的な洞察を採用することで標準的な形態素解析を超えてパフォーマンスをさらに向上できることを示しています。

要約(オリジナル)

We introduce a morpheme-aware subword tokenization method that utilizes sub-character decomposition to address the challenges of applying Byte Pair Encoding (BPE) to Korean, a language characterized by its rich morphology and unique writing system. Our approach balances linguistic accuracy with computational efficiency in Pre-trained Language Models (PLMs). Our evaluations show that this technique achieves good performances overall, notably improving results in the syntactic task of NIKL-CoLA. This suggests that integrating morpheme type information can enhance language models’ syntactic and semantic capabilities, indicating that adopting more linguistic insights can further improve performance beyond standard morphological analysis.

arxiv情報

著者 Taehee Jeon,Bongseok Yang,Changhwan Kim,Yoonseob Lim
発行日 2023-11-07 12:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL パーマリンク