Classifying Graphemes in English Words Through the Application of a Fuzzy Inference System

要約

言語学において、書記素は音韻に対応する書記体系の書かれた単位です。
自然言語処理タスクでは、単語分析と文字分析という 2 つの異なる媒体を通じて書き言葉が分析されます。
この論文では、3 番目のアプローチである書記素の分析に焦点を当てます。
書記素は音声の自己完結型表現であるため、単語や文字の分析よりも優れています。
複雑な非バイナリ規則に基づいて単語を書記素に分割する性質のため、ファジー ロジックを適用すると、単語内の書記素の数を予測するための適切な媒体が提供されます。
この論文では、単語を書記素に分割するためのファジー推論システムのアプリケーションを提案します。
このファジー推論システムは、単語内の書記素数を 50.18% の確率で正しく予測し、93.51% は正しい分類から +-1 の範囲内にあります。
言語の多様性を考慮すると、書記素は発音と結びついているため、地域のアクセント/方言に応じて変化する可能性があります。+- 1 の精度は、地域の差異を考慮した場合の書記素分類の不正確さを表します。
比較のベースラインを与えるために、発音辞書を使用した再帰的 IPA マッピング演習を含む 2 番目の方法が開発され、比較が可能になりました。

要約(オリジナル)

In Linguistics, a grapheme is a written unit of a writing system corresponding to a phonological sound. In Natural Language Processing tasks, written language is analysed through two different mediums, word analysis, and character analysis. This paper focuses on a third approach, the analysis of graphemes. Graphemes have advantages over word and character analysis by being self-contained representations of phonetic sounds. Due to the nature of splitting a word into graphemes being based on complex, non-binary rules, the application of fuzzy logic would provide a suitable medium upon which to predict the number of graphemes in a word. This paper proposes the application of a Fuzzy Inference System to split words into their graphemes. This Fuzzy Inference System results in a correct prediction of the number of graphemes in a word 50.18% of the time, with 93.51% being within a margin of +- 1 from the correct classification. Given the variety in language, graphemes are tied with pronunciation and therefore can change depending on a regional accent/dialect, the +- 1 accuracy represents the impreciseness of grapheme classification when regional variances are accounted for. To give a baseline of comparison, a second method involving a recursive IPA mapping exercise using a pronunciation dictionary was developed to allow for comparisons to be made.

arxiv情報

著者 Samuel Rose,Chandrasekhar Kambhampati
発行日 2024-04-02 13:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LO パーマリンク