Local Grammar-Based Coding Revisited

要約

最小限のローカル文法ベースのコーディングの設定では、入力文字列は、単純なシンボルバイシンボルエンコードを介して定義される最小出力の長さを持つ文法として表されます。
このペーパーでは、この分野への4つの貢献について説明します。
まず、ランク付けされた確率に縛られた単純な高調波を呼び出します。これは、ZIPFの法則を思い出させ、最小限のローカル文法ベースのコードの普遍性の証拠を簡素化します。
第二に、語彙サイズの既知の境界を改良し、相互の情報と冗長性とその部分的な電力法の等価性を示します。
これらの境界は、ZIPFの法則を大規模な言語モデルの神経スケーリング法則とリンクすることに関連しています。
第三に、固定された無限の語彙を備えたユニバーサルコードのフレームワークを開発し、経験的データとは無関係のランク付けされたパターンとして普遍的なコーディングを作り直します。
最後に、有限の語彙が経験的ランクリストであるという文法ベースのコードを分析し、そのようなコードも普遍的であることを証明します。
これらの結果は、普遍的な文法ベースのコーディングの基礎を拡張し、以前に述べられた人間の言語モデルと言語モデルの電力法則とのつながりを再確認しました。

要約(オリジナル)

In the setting of minimal local grammar-based coding, the input string is represented as a grammar with the minimal output length defined via simple symbol-by-symbol encoding. This paper discusses four contributions to this field. First, we invoke a simple harmonic bound on ranked probabilities, which reminds Zipf’s law and simplifies universality proofs for minimal local grammar-based codes. Second, we refine known bounds on the vocabulary size, showing its partial power-law equivalence with mutual information and redundancy. These bounds are relevant for linking Zipf’s law with the neural scaling law for large language models. Third, we develop a framework for universal codes with fixed infinite vocabularies, recasting universal coding as matching ranked patterns that are independent of empirical data. Finally, we analyze grammar-based codes with finite vocabularies being empirical rank lists, proving that that such codes are also universal. These results extend foundations of universal grammar-based coding and reaffirm previously stated connections to power laws for human language and language models.

arxiv情報

著者 Łukasz Dębowski
発行日 2025-04-16 08:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 94A29, cs.CL, cs.IT, math.IT パーマリンク