要約
マルチレベルのチベットのスペル補正は、統一されたモデル内の文字レベルと音節レベルの両方でエラーに対処します。
既存の方法は、主に単一レベルの補正に焦点を当てており、両方のレベルの効果的な統合が欠けています。
さらに、チベット語でこのタスクに合わせたオープンソースデータセットまたは増強方法はありません。
これに取り組むために、マルチレベルの腐敗を生成するために、ラベル付けされていないテキストを使用してデータ増強アプローチを提案し、文字と音節レベルの両方のエラーを修正できる半マスクモデルであるTispellを導入します。
音節レベルの修正は、グローバルなコンテキストへの依存のためにより困難ですが、半マスクされた戦略はこのプロセスを簡素化します。
堅牢なトレーニングセットを作成するために、クリーンな文で9種類の腐敗を統合します。
シミュレートされたデータと実世界の両方のデータの実験は、データセットで訓練されたTispellがベースラインモデルを上回り、最先端のアプローチのパフォーマンスを一致させ、その有効性を確認することを示しています。
要約(オリジナル)
Multi-level Tibetan spelling correction addresses errors at both the character and syllable levels within a unified model. Existing methods focus mainly on single-level correction and lack effective integration of both levels. Moreover, there are no open-source datasets or augmentation methods tailored for this task in Tibetan. To tackle this, we propose a data augmentation approach using unlabeled text to generate multi-level corruptions, and introduce TiSpell, a semi-masked model capable of correcting both character- and syllable-level errors. Although syllable-level correction is more challenging due to its reliance on global context, our semi-masked strategy simplifies this process. We synthesize nine types of corruptions on clean sentences to create a robust training set. Experiments on both simulated and real-world data demonstrate that TiSpell, trained on our dataset, outperforms baseline models and matches the performance of state-of-the-art approaches, confirming its effectiveness.
arxiv情報
著者 | Yutong Liu,Feng Xiao,Ziyue Zhang,Yongbin Yu,Cheng Huang,Fan Gao,Xiangxiang Wang,Ma-bao Ban,Manping Fan,Thupten Tsering,Cheng Huang,Gadeng Luosang,Renzeng Duojie,Nyima Tashi |
発行日 | 2025-05-14 04:04:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google