TiSpell: A Semi-Masked Methodology for Tibetan Spelling Correction covering Multi-Level Error with Data Augmentation

要約

マルチレベルのチベットのスペル補正は、統一されたモデル内の文字レベルと音節レベルの両方でエラーに対処します。
既存の方法は、主に単一レベルの補正に焦点を当てており、両方のレベルの効果的な統合が欠けています。
さらに、チベット語でこのタスクに合わせたオープンソースデータセットまたは増強方法はありません。
これに取り組むために、マルチレベルの腐敗を生成するために、ラベル付けされていないテキストを使用してデータ増強アプローチを提案し、文字と音節レベルの両方のエラーを修正できる半マスクモデルであるTispellを導入します。
音節レベルの修正は、グローバルなコンテキストへの依存のためにより困難ですが、半マスクされた戦略はこのプロセスを簡素化します。
堅牢なトレーニングセットを作成するために、クリーンな文で9種類の腐敗を統合します。
シミュレートされたデータと実世界の両方のデータの実験は、データセットで訓練されたTispellがベースラインモデルを上回り、最先端のアプローチのパフォーマンスを一致させ、その有効性を確認することを示しています。

要約(オリジナル)

Multi-level Tibetan spelling correction addresses errors at both the character and syllable levels within a unified model. Existing methods focus mainly on single-level correction and lack effective integration of both levels. Moreover, there are no open-source datasets or augmentation methods tailored for this task in Tibetan. To tackle this, we propose a data augmentation approach using unlabeled text to generate multi-level corruptions, and introduce TiSpell, a semi-masked model capable of correcting both character- and syllable-level errors. Although syllable-level correction is more challenging due to its reliance on global context, our semi-masked strategy simplifies this process. We synthesize nine types of corruptions on clean sentences to create a robust training set. Experiments on both simulated and real-world data demonstrate that TiSpell, trained on our dataset, outperforms baseline models and matches the performance of state-of-the-art approaches, confirming its effectiveness.

arxiv情報

著者 Yutong Liu,Feng Xiao,Ziyue Zhang,Yongbin Yu,Cheng Huang,Fan Gao,Xiangxiang Wang,Ma-bao Ban,Manping Fan,Thupten Tsering,Cheng Huang,Gadeng Luosang,Renzeng Duojie,Nyima Tashi
発行日 2025-05-14 04:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク