要約
この文書では、大規模な言語モデルのトレーニングに使用でき、いくつかの著名なオンライン リポジトリの 1 つで公開されているセルビア語 (およびセルボ クロアチア語) のテキスト コーパスを紹介します。
各コーパスを複数の方法で分類し、その特徴を詳しく説明します。
さらに、この論文は 3 つの新しいコーパスを紹介します。セルボ・クロアチア語の新しいアンブレラ ウェブ コーパス、セルビアのすべての大学の博士論文国立リポジトリに保存されている博士論文に基づく新しい高品質のコーパス、および要約の並列コーパスです。
同じソースからの翻訳。
古いコーパスと新しいコーパスの両方の独自性が、周波数ベースのスタイロメトリー法を介してアクセスされ、その結果が簡単に議論されます。
要約(オリジナル)
This paper will present textual corpora for Serbian (and Serbo-Croatian), usable for the training of large language models and publicly available at one of the several notable online repositories. Each corpus will be classified using multiple methods and its characteristics will be detailed. Additionally, the paper will introduce three new corpora: a new umbrella web corpus of Serbo-Croatian, a new high-quality corpus based on the doctoral dissertations stored within National Repository of Doctoral Dissertations from all Universities in Serbia, and a parallel corpus of abstract translation from the same source. The uniqueness of both old and new corpora will be accessed via frequency-based stylometric methods, and the results will be briefly discussed.
arxiv情報
著者 | Mihailo Škorić,Nikola Janković |
発行日 | 2024-05-15 11:05:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google