Normalization of Lithuanian Text Using Regular Expressions

要約

テキストの正規化は、あらゆるテキスト読み上げ合成システムに不可欠な部分です。
自然言語テキストには、他の記号論クラスに属する数値、日付、略語などの要素が含まれます。
これらは非標準語 (NSW) と呼ばれ、通常の単語に拡張する必要があります。
この目的のためには、各ニューサウスウェールズ州の記号論的クラスを識別する必要があります。
この作品では、リトアニア語に適応した記号論クラスの分類法が提示されています。
正規表現に基づいて NSW を検出および拡張するためのルールのセットが作成されます。
3 つのまったく異なるデータセットを使用した実験が実行され、精度が評価されました。
エラーの原因が説明され、テキスト正規化ルールの開発に関する推奨事項が示されます。

要約(オリジナル)

Text Normalization is an integral part of any text-to-speech synthesis system. In a natural language text, there are elements such as numbers, dates, abbreviations, etc. that belong to other semiotic classes. They are called non-standard words (NSW) and need to be expanded into ordinary words. For this purpose, it is necessary to identify the semiotic class of each NSW. The taxonomy of semiotic classes adapted to the Lithuanian language is presented in the work. Sets of rules are created for detecting and expanding NSWs based on regular expressions. Experiments with three completely different data sets were performed and the accuracy was assessed. Causes of errors are explained and recommendations are given for the development of text normalization rules.

arxiv情報

著者 Pijus Kasparaitis
発行日 2024-01-01 08:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク