FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression

要約

言語モデリングの目的は圧縮と深く関係していることが示されていますが、現代の LLM が実際のテキスト圧縮システムに採用されていないことは驚くべきことです。
このペーパーでは、この質問に答えるために、ニューラル ネットワークとトランスフォーマー ベースの圧縮技術の詳細な分析を提供します。
従来のテキスト圧縮システムと、ニューラル ネットワークおよび LLM ベースのテキスト圧縮方法を比較します。
LLM ベースのシステムは従来の圧縮方法よりも大幅に性能が優れていますが、非常に非実用的です。
具体的には、Llama3-8B を使用した最近のテキスト圧縮システムである LLMZip では、わずか 10 MB のテキストを圧縮するのに 9.5 日かかりますが、圧縮率は大幅に向上しています。
これを克服するために、オンライン暗記と動的コンテキストのアイデアを組み合わせて圧縮時間を大幅に短縮する、新しい LLM ベースのテキスト圧縮システムである FineZip を紹介します。
FineZip は、上記のコーパスを 9.5 日かかっていたのに対し、約 4 時間で圧縮できます。これは、LLMZip よりも 54 倍の改善であり、同等のパフォーマンスです。
FineZip は、従来のアルゴリズム圧縮方式を大幅に上回り、圧縮率を約 50\% 向上させます。
この取り組みにより、LLM を使用した可逆テキスト圧縮の実現に向けた第一歩を踏み出しました。
FineZip はその方向に向けて重要な一歩を踏み出しましたが、LLM はまだ大規模なテキスト圧縮にとって実行可能なソリューションではありません。
私たちの取り組みが、この問題を解決するための将来の研究とイノベーションへの道を開くことを願っています。

要約(オリジナル)

While the language modeling objective has been shown to be deeply connected with compression, it is surprising that modern LLMs are not employed in practical text compression systems. In this paper, we provide an in-depth analysis of neural network and transformer-based compression techniques to answer this question. We compare traditional text compression systems with neural network and LLM-based text compression methods. Although LLM-based systems significantly outperform conventional compression methods, they are highly impractical. Specifically, LLMZip, a recent text compression system using Llama3-8B requires 9.5 days to compress just 10 MB of text, although with huge improvements in compression ratios. To overcome this, we present FineZip – a novel LLM-based text compression system that combines ideas of online memorization and dynamic context to reduce the compression time immensely. FineZip can compress the above corpus in approximately 4 hours compared to 9.5 days, a 54 times improvement over LLMZip and comparable performance. FineZip outperforms traditional algorithmic compression methods with a large margin, improving compression ratios by approximately 50\%. With this work, we take the first step towards making lossless text compression with LLMs a reality. While FineZip presents a significant step in that direction, LLMs are still not a viable solution for large-scale text compression. We hope our work paves the way for future research and innovation to solve this problem.

arxiv情報

著者 Fazal Mittu,Yihuan Bu,Akshat Gupta,Ashok Devireddy,Alp Eren Ozdarendeli,Anant Singh,Gopala Anumanchipalli
発行日 2024-09-25 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク