The optimality of word lengths. Theoretical foundations and an empirical study

要約

タイトル:単語の適切な長さについて。理論的基盤と実証研究

要約:
– Zipfの略語の法則は、より頻繁に使用される単語が短くなる傾向があることを示しており、これは自然的なコミュニケーションの普遍的な原則である圧縮の表れと考えられている。
– 言語が最適化されているという主張は一般的になっていますが、言語の最適化度合いを測定する試みはかなり少ないです。
– 本研究では、2つの最適性スコアを提示し、最小値とランダムベースラインの両方に対して正規化されています。
– 最適性スコアの理論的および統計的な利点と欠点を分析しています。
– 最良のスコアを活用し、言語における単語の長さの最適度合いを初めて数量化しました。この結果、単語の長さが文字で測定された場合、平均して言語は62%または67%に最適化されており(ソースによる)、時間で測定された場合、平均して言語は65%に最適化されています。
– 一般的に、口頭での単語の使用時間は文字で表記された単語の最適化よりも高い傾向にあります。
– この研究は、他の種の発声やジェスチャーの最適性を測定し、書かれた、口頭での、または手話の人間の言語と比較するための道を開拓しました。

要約(オリジナル)

Zipf’s law of abbreviation, namely the tendency of more frequent words to be shorter, has been viewed as a manifestation of compression, i.e. the minimization of the length of forms — a universal principle of natural communication. Although the claim that languages are optimized has become trendy, attempts to measure the degree of optimization of languages have been rather scarce. Here we present two optimality scores that are dualy normalized, namely, they are normalized with respect to both the minimum and the random baseline. We analyze the theoretical and statistical pros and cons of these and other scores. Harnessing the best score, we quantify for the first time the degree of optimality of word lengths in languages. This indicates that languages are optimized to 62 or 67 percent on average (depending on the source) when word lengths are measured in characters, and to 65 percent on average when word lengths are measured in time. In general, spoken word durations are more optimized than written word lengths in characters. Our work paves the way to measure the degree of optimality of the vocalizations or gestures of other species, and to compare them against written, spoken, or signed human languages.

arxiv情報

著者 Sonia Petrini,Antoni Casas-i-Muñoz,Jordi Cluet-i-Martinell,Mengxue Wang,Christian Bentz,Ramon Ferrer-i-Cancho
発行日 2023-04-05 09:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク