On the class of coding optimality of human languages and the origins of Zipf’s law

要約

ここでは、コーディングシステム用の新しいクラスの最適性を紹介します。
そのクラスのメンバーは、最適なコーディングから直線的に分離されているため、ZIPFの法則、つまり周波数ランクのパワーロー分布を示します。
その階級、ZIPFの法則、サイズランクの法律、および規模の推定可能性法は、グループのような構造を形成します。
クラスのメンバーである人間の言語を特定します。
ZIPFの法律と十分な合意を示すすべての言語は、クラスの潜在的なメンバーです。
対照的に、他の種には、代わりに指数分布を示すためにそのクラスのメンバーになることはできない通信システムがありますが、イルカとザトウクジラはそうするかもしれません。
二重の対数スケールでの周波数とランクのプロットに関する新しい洞察を提供します。
任意のシステムの場合、そのスケールの直線は、非弦楽コーディングおよびユニークなデコード可能なエンコード下での最適なコードの長さが、勾配がZIPFの法律の指数である線形関数によって分離されることを示します。
圧縮されており、独自にデコード可能になるように制約されているシステムの場合、そのような直線は、システムが最適性に近いコーディングを示していることを示している可能性があります。
私たちの調査結果は、ZIPFの法則が圧縮に起因するという仮説を支持しています。

要約(オリジナル)

Here we present a new class of optimality for coding systems. Members of that class are separated linearly from optimal coding and thus exhibit Zipf’s law, namely a power-law distribution of frequency ranks. Whithin that class, Zipf’s law, the size-rank law and the size-probability law form a group-like structure. We identify human languages that are members of the class. All languages showing sufficient agreement with Zipf’s law are potential members of the class. In contrast, there are communication systems in other species that cannot be members of that class for exhibiting an exponential distribution instead but dolphins and humpback whales might. We provide a new insight into plots of frequency versus rank in double logarithmic scale. For any system, a straight line in that scale indicates that the lengths of optimal codes under non-singular coding and under uniquely decodable encoding are separated by a linear function whose slope is the exponent of Zipf’s law. For systems under compression and constrained to be uniquely decodable, such a straight line may indicate that the system is coding close to optimality. Our findings provide support for the hypothesis that Zipf’s law originates from compression.

arxiv情報

著者 Ramon Ferrer-i-Cancho
発行日 2025-05-26 14:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph パーマリンク