Direct and indirect evidence of compression of word lengths. Zipf’s law of abbreviation revisited

要約

Zipf の略語の法則 (より頻繁に使用される単語ほど短くなる傾向) は、言語の普遍性を示す最も有力な候補の 1 つです。
地球上の言語の数。
Zipf の先駆的な研究以来、この法則はコミュニケーションの普遍的な原則、つまり、コミュニケーションの労力を軽減するための単語の長さの最小化の現れと見なされてきました。
ここで、書き言葉と略語の法則との一致を再検討します。
重要なことは、この法則が発話にも適用されるという幅広い証拠を提供したことです (単語の長さを時間で測定した場合)。
略語の法則との一致は、略語の法則が最適なコーディングの予測であるという理論的議論を介して、言語の圧縮の間接的な証拠を提供します。
圧縮の直接的な証拠の必要性に動機付けられて、言語族や書記体系全体で、測定単位 (文字の長さまたは時間の長さ
)。
私たちの仕事は、言語の単語の長さの最適性の程度を測定し、比較する道を開きます。

要約(オリジナル)

Zipf’s law of abbreviation, the tendency of more frequent words to be shorter, is one of the most solid candidates for a linguistic universal, in the sense that it has the potential for being exceptionless or with a number of exceptions that is vanishingly small compared to the number of languages on Earth. Since Zipf’s pioneering research, this law has been viewed as a manifestation of a universal principle of communication, i.e. the minimization of word lengths, to reduce the effort of communication. Here we revisit the concordance of written language with the law of abbreviation. Crucially, we provide wider evidence that the law holds also in speech (when word length is measured in time), in particular in 46 languages from 14 linguistic families. Agreement with the law of abbreviation provides indirect evidence of compression of languages via the theoretical argument that the law of abbreviation is a prediction of optimal coding. Motivated by the need of direct evidence of compression, we derive a simple formula for a random baseline indicating that word lengths are systematically below chance, across linguistic families and writing systems, and independently of the unit of measurement (length in characters or duration in time). Our work paves the way to measure and compare the degree of optimality of word lengths in languages.

arxiv情報

著者 Sonia Petrini,Antoni Casas-i-Muñoz,Jordi Cluet-i-Martinell,Mengxue Wang,Chris Bentz,Ramon Ferrer-i-Cancho
発行日 2023-03-17 17:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph パーマリンク