Local Grammar-Based Coding Revisited

要約

最小限のローカル文法ベースのコーディングの問題を再検討します。
この設定では、ローカル文法エンコーダはシンボルごとに文法をエンコードしますが、最小文法変換は、ローカル文法エンコードの長さによって与えられるプリセット クラスの文法内の文法長を最小限に抑えます。
このような最小コードは厳密に正のエントロピー率に対して強力に普遍的である一方、最小文法のルールの数がソースの相互情報量の上限を構成することが知られています。
完全に最小限のコードは扱いにくいと思われますが、制約付きの最小限のブロック コードは効率的に計算できます。
この記事では、エントロピー レートに関係なく、最小ブロック コードの強力な普遍性を示す、新しく、よりシンプルで、より一般的な証明を示します。
この証明は、ランク付けされた確率の単純な Zipfian 限界に基づいています。
ちなみに、最小限のブロック コード内のルールの数では、英語のテキストとその文字のランダムな並べ替えなど、長い記憶のソースと記憶のないソースを明確に区別できないことも経験的に示しています。
これは私たちの以前の予想に反します。

要約(オリジナル)

We revisit the problem of minimal local grammar-based coding. In this setting, the local grammar encoder encodes grammars symbol by symbol, whereas the minimal grammar transform minimizes the grammar length in a preset class of grammars as given by the length of local grammar encoding. It has been known that such minimal codes are strongly universal for a strictly positive entropy rate, whereas the number of rules in the minimal grammar constitutes an upper bound for the mutual information of the source. Whereas the fully minimal code is likely intractable, the constrained minimal block code can be efficiently computed. In this article, we present a new, simpler, and more general proof of strong universality of the minimal block code, regardless of the entropy rate. The proof is based on a simple Zipfian bound for ranked probabilities. By the way, we also show empirically that the number of rules in the minimal block code cannot clearly discriminate between long-memory and memoryless sources, such as a text in English and a random permutation of its characters. This contradicts our previous expectations.

arxiv情報

著者 Łukasz Dębowski
発行日 2023-07-12 16:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 94A29, cs.CL, cs.IT, math.IT パーマリンク