Language Modeling Is Compression

要約

予測モデルをロスレス コンプレッサーに変換したり、その逆も可能であることは長い間確立されてきました。
ちなみに、近年、機械学習コミュニティは、ますます大規模で強力な自己教師あり (言語) モデルのトレーニングに焦点を当てています。
これらの大規模な言語モデルは優れた予測機能を示すため、強力なコンプレッサーとして適しています。
この研究では、予測問題を圧縮というレンズを通して見ることを提唱し、大規模な (基礎) モデルの圧縮機能を評価します。
私たちは、大規模な言語モデルが強力な汎用予測子であること、また圧縮の観点からスケーリング則、トークン化、およびコンテキスト内学習に対する新たな洞察が得られることを示します。
たとえば、Chinchilla 70B は主にテキストでトレーニングされていますが、ImageNet パッチを生のサイズの 43.4% に、LibriSpeech サンプルを 16.4% に圧縮し、それぞれ PNG (58.5%) や FLAC (30.3%) などのドメイン固有のコンプレッサーを上回ります。
最後に、予測と圧縮の等価性により、任意の圧縮プログラム (gzip など) を使用して条件付き生成モデルを構築できることを示します。

要約(オリジナル)

It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.

arxiv情報

著者 Grégoire Delétang,Anian Ruoss,Paul-Ambroise Duquenne,Elliot Catt,Tim Genewein,Christopher Mattern,Jordi Grau-Moya,Li Kevin Wenliang,Matthew Aitchison,Laurent Orseau,Marcus Hutter,Joel Veness
発行日 2023-09-19 14:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT パーマリンク