要約
適切に圧縮することを学ぶことが知性につながると信じられています。
最近、言語モデリングが圧縮と同等であることが示され、これは大規模言語モデル (LLM) の成功に対する説得力のある理論的根拠を提供します。つまり、より高度な言語モデルの開発は本質的に圧縮を強化し、インテリジェンスを促進します。
このような魅力的な議論にもかかわらず、圧縮とインテリジェンスの相互作用についての経験的証拠はほとんどありません。
この研究では、LLM をデータ圧縮装置として扱い、LLM のコンテキストでそれらの関係を調べます。
「インテリジェンス」という抽象的な概念を考慮して、ダウンストリーム ベンチマーク スコアの平均を代用として採用し、特に知識と常識、コーディング、および数学的推論に関連するインテリジェンスをターゲットにしています。
私たちの調査では、12 のベンチマークにわたって、さまざまな組織から発信される 31 のパブリック LLM がまとめられています。
注目すべきことに、平均ベンチマーク スコアに反映される LLM の知能は、外部テキスト コーパスを圧縮する能力とほぼ直線的に相関していることがわかりました。
これらの結果は、優れた圧縮はより高い知能を示すという信念を裏付ける具体的な証拠を提供します。
さらに、我々の調査結果は、生のテキストコーパスから導出される教師なし指標としての圧縮効率が、モデルの機能と線形に関連する信頼できる評価尺度として機能することを示唆しています。
私たちは、将来の研究者が圧縮を適切に評価できるよう、圧縮データセットとデータ収集パイプラインをオープンソースにしています。
要約(オリジナル)
There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of ‘intelligence’, we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 31 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs’ intelligence — reflected by average benchmark scores — almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.
arxiv情報
著者 | Yuzhen Huang,Jinghan Zhang,Zifei Shan,Junxian He |
発行日 | 2024-08-19 13:55:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google