A Study on the Appropriate size of the Mongolian general corpus

要約

この研究は、モンゴル語一般コーパスの適切なサイズを決定することを目的としています。
この研究では、ヒープ関数とタイプ トークン比率を使用して、モンゴル語一般コーパスの適切なサイズを決定しました。
906,064 トークンのサンプル コーパスは、新聞の政治、経済、社会、文化、スポーツ、世界の記事と法律、中学および高校の文学教科書、インタビュー記事、ポッドキャストのトランスクリプトの 10 分野のテキストで構成されていました。
まず、このサンプル コーパスを使用してヒープ関数を推定しました。
次に、推定ヒープ関数を使用してトークン数を 100 万個増加させたときの種類数と TTR 値の変化を観察しました。
観察の結果、トークン数が3,900万から4,200万を超えてもTTR値はほとんど変化しないことがわかりました。
したがって、モンゴル語一般コーパスの適切なサイズは 3,900 万から 4,200 万トークンであると結論付けられます。

要約(オリジナル)

This study aims to determine the appropriate size of the Mongolian general corpus. This study used the Heaps function and Type Token Ratio to determine the appropriate size of the Mongolian general corpus. The sample corpus of 906,064 tokens comprised texts from 10 domains of newspaper politics, economy, society, culture, sports, world articles and laws, middle and high school literature textbooks, interview articles, and podcast transcripts. First, we estimated the Heaps function with this sample corpus. Next, we observed changes in the number of types and TTR values while increasing the number of tokens by one million using the estimated Heaps function. As a result of observation, we found that the TTR value hardly changed when the number of tokens exceeded from 39 to 42 million. Thus, we conclude that an appropriate size for a Mongolian general corpus is from 39 to 42 million tokens.

arxiv情報

著者 Sunsoo Choi,Ganbat Tsend
発行日 2023-07-12 10:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク