$π$-yalli: un nouveau corpus pour le nahuatl

要約

NAHU$^2$ プロジェクトは、機械学習に適応した $\pi$-YALLI コーパスの構築を目的としたフランスとメキシコの共同作業であり、その後ナワトル語用のコンピューター リソースの開発に使用されます。
ナワトル語は、約 200 万人が話している生きた言語であるにもかかわらず、計算リソースがほとんどない言語です。
私たちは、動的かどうかに関係なく、言語モデル (LM) を開発するためにナワトル語の研究を実行できるコーパス $\pi$-YALLI を構築することにしました。これにより、言語モデル (LM) の開発が可能になります。
自然言語処理 (NLP) ツール: a) 書記素統合器、b) 単語セグメンター、c) POS 文法アナライザー、d) コンテンツベースの自動テキスト要約。
そしておそらく e) 翻訳者 翻訳者 (確率的または学習ベース)。

要約(オリジナル)

The NAHU$^2$ project is a Franco-Mexican collaboration aimed at building the $\pi$-YALLI corpus adapted to machine learning, which will subsequently be used to develop computer resources for the Nahuatl language. Nahuatl is a language with few computational resources, even though it is a living language spoken by around 2 million people. We have decided to build $\pi$-YALLI, a corpus that will enable to carry out research on Nahuatl in order to develop Language Models (LM), whether dynamic or not, which will make it possible to in turn enable the development of Natural Language Processing (NLP) tools such as: a) a grapheme unifier, b) a word segmenter, c) a POS grammatical analyser, d) a content-based Automatic Text Summarization; and possibly, e) a translator translator (probabilistic or learning-based).

arxiv情報

著者 Juan-Manuel Torres-Moreno,Juan-José Guzmán-Landa,Graham Ranger,Martha Lorena Avendaño Garrido,Miguel Figueroa-Saavedra,Ligia Quintana-Torres,Carlos-Emiliano González-Gallardo,Elvys Linhares Pontes,Patricia Velázquez Morales,Luis-Gil Moreno Jiménez
発行日 2024-12-20 12:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク