Annotating and Inferring Compositional Structures in Numeral Systems Across Languages

要約

世界の言語全体の数値システムは、同期構造と現在の形状でどのように進化するかを決定する時ダニックプロセスの両方に関して、魅力的な方法で異なります。
ただし、異なる言語にわたる数字システムを適切に比較するには、基本的な特性の比較を可能にする標準化された形式でコーディングすることが重要です。
ここでは、数値アノテーションのためのシンプルだが効果的なコーディングスキームと、コンピューター支援方法で数字システムをコーディングするのに役立つワークフローを提示し、25の25の数字のサンプルデータを提供します。
基礎となる形態構造と表面の形態構造の体系的な比較に焦点を当て、サンプルの徹底的な分析を実行します。
さらに、モルフェムセグメンテーションの自動モデルを実験します。このモデルでは、セグメンテーションエラーの主な理由としてアロモルフィが見つかります。
最後に、低リソースのシナリオで形態素を発見するためにサブワードトークン化アルゴリズムが実行できないことを示します。

要約(オリジナル)

Numeral systems across the world’s languages vary in fascinating ways, both regarding their synchronic structure and the diachronic processes that determined how they evolved in their current shape. For a proper comparison of numeral systems across different languages, however, it is important to code them in a standardized form that allows for the comparison of basic properties. Here, we present a simple but effective coding scheme for numeral annotation, along with a workflow that helps to code numeral systems in a computer-assisted manner, providing sample data for numerals from 1 to 40 in 25 typologically diverse languages. We perform a thorough analysis of the sample, focusing on the systematic comparison between the underlying and the surface morphological structure. We further experiment with automated models for morpheme segmentation, where we find allomorphy as the major reason for segmentation errors. Finally, we show that subword tokenization algorithms are not viable for discovering morphemes in low-resource scenarios.

arxiv情報

著者 Arne Rubehn,Christoph Rzymski,Luca Ciucci,Kellen Parker van Dam,Alžběta Kučerová,Katja Bocklage,David Snee,Abishek Stephen,Johann-Mattis List
発行日 2025-03-04 15:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, J.5 パーマリンク