Large Language Model Evaluation via Matrix Entropy

要約

大規模言語モデル (LLM) は自然言語処理の分野に革命をもたらし、その強力な機能をマルチモーダル ドメインに拡張しました。
したがって、LLM の評価には適切かつ多様な指標を定義することが重要です。
この論文では、LLM のデータ圧縮能力を定量化するための情報理論と幾何学の原理に根ざした新しい指標である行列エントロピーを紹介します。
これは、関連情報を抽出し、不要な要素を削除するモデルの能力を反映しており、それによって言語モデルの本質的な能力についての洞察が得られます。
具体的には、単一モーダル (言語) 設定とマルチモーダル設定の両方での適用性を実証します。
言語モデルの場合、私たちの調査結果は、モデルがスケールアップすると、表現の行列エントロピーがスケーリング則タイプの縮小に従い、従来の損失スケーリング則を補完する役割を果たすことを明らかにしました。
マルチモーダル設定については、アライメント品質を評価するための行列エントロピーに基づく評価方法も提案し、最新の大規模マルチモーダル モデルが優れたアライメント性能を示すことがわかりました。

要約(オリジナル)

Large language models (LLMs) have revolutionized the field of natural language processing, extending their strong capabilities into multi-modal domains. Thus, it is vital to define proper and diversified metrics for the evaluation of LLMs. In this paper, we introduce matrix entropy, a novel metric rooted in information theory and geometry principles to quantify the data compression proficiency in LLMs. It reflects the model’s ability to extract relevant information and eliminate unnecessary elements, thereby providing insight into the language model’s intrinsic capability. Specifically, we demonstrate its applicability in both single-modal (language) and multi-modal settings. For language models, our findings reveal that the matrix entropy of representations follows a scaling law type reduction when the model scales up, serving as a complement to the traditional loss scaling law. For the multi-modal setting, we also propose an evaluation method based on matrix entropy for assessing alignment quality and we find that modern large multi-modal models exhibit great alignment performance.

arxiv情報

著者 Lai Wei,Zhiquan Tan,Chenghai Li,Jindong Wang,Weiran Huang
発行日 2024-01-30 16:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT パーマリンク