Text normalization for low-resource languages: the case of Ligurian

要約

テキストの正規化は、厳密なスペル規則が存在しない、または複数のスペル改革が行われた低リソース言語にとって重要なテクノロジです。
低リソースのテキスト正規化はこれまで、ニューラル手法よりもデータ効率が高いと考えられている手作りのルールに依存していました。
この論文では、絶滅の危機に瀕しているロマンス言語であるリグーリア語のテキスト正規化のケースを検討します。
私たちは 4,394 のリグーリア語文とその正規化バージョンを組み合わせたものと、リグーリア語の初のオープンソースの単一言語コーパスを収集します。
利用可能なデータの量が少ないにもかかわらず、逆変換と適切なトークン化を使用することで、コンパクトなトランスフォーマー ベースのモデルをトレーニングして、非常に低いエラー率を達成できることを示します。

要約(オリジナル)

Text normalization is a crucial technology for low-resource languages which lack rigid spelling conventions or that have undergone multiple spelling reforms. Low-resource text normalization has so far relied upon hand-crafted rules, which are perceived to be more data efficient than neural methods. In this paper we examine the case of text normalization for Ligurian, an endangered Romance language. We collect 4,394 Ligurian sentences paired with their normalized versions, as well as the first open source monolingual corpus for Ligurian. We show that, in spite of the small amounts of data available, a compact transformer-based model can be trained to achieve very low error rates by the use of backtranslation and appropriate tokenization.

arxiv情報

著者 Stefano Lusito,Edoardo Ferrante,Jean Maillard
発行日 2023-12-22 06:33:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク