Evaluating Zero-Shot Long-Context LLM Compression

要約

この研究では、ロングコンテキストの下での大規模な言語モデル(LLMS)に対するゼロショット圧縮技術の有効性を評価します。
特定の圧縮方法を使用すると、長いコンテキストの下で計算エラーが増加する傾向を特定します。
さまざまなLLM圧縮技術のさまざまな動作を説明する仮説を提案し、長いコンテキストのいくつかの技術で観察されたパフォーマンスの低下を軽減するための救済策を調査します。
これは、プリンストン大学のカイ・リー教授によるCOS 598D機械学習とシステムのコースレポートです。
計算リソースが限られているため、実験はllama-2-7b-32kでのみ実施されました。

要約(オリジナル)

This study evaluates the effectiveness of zero-shot compression techniques on large language models (LLMs) under long-context. We identify the tendency for computational errors to increase under long-context when employing certain compression methods. We propose a hypothesis to explain the varied behavior of different LLM compression techniques and explore remedies to mitigate the performance decline observed in some techniques under long-context. This is a course report for COS 598D Machine Learning and Systems by Prof. Kai Li at Princeton University. Due to limited computational resources, our experiments were conducted only on LLaMA-2-7B-32K.

arxiv情報

著者 Chenyu Wang,Yihan Wang,Kai Li
発行日 2025-02-13 17:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク