A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

要約

大規模言語モデル(LLM)の包括的な評価は未解決の研究課題である。既存の評価は、貪欲なデコーディングによって生成された決定論的な点推定に依存している。しかし、決定論的評価ではモデルの出力分布全体を捉えることができず、モデルの能力を不正確に推定してしまう。これは、正確なモデル評価が重要である、学習解除やアライメントのような重要な文脈において特に問題となる。この問題を解決するために、我々はLLMにおける最初の正式な確率的評価フレームワークを導入する。すなわち、モデルの出力分布に関する高確率保証を持つ新しいメトリクスを導出する。我々のメトリクスはアプリケーションに依存せず、実務家が展開前にモデルの能力についてより信頼性の高い推定を行うことを可能にする。学習解除に焦点を当てたケーススタディを通じて、決定論的評価は学習解除が成功したことを誤って示すが、我々の確率論的評価は、学習解除されたと思われる情報の全てではないにせよ、そのほとんどがこれらのモデルにおいてアクセス可能なままであることを示すことを明らかにする。さらに、エントロピー最適化と適応的温度スケーリングに基づく新しい学習解除損失を提案し、最近のベンチマークにおいて確率的設定における学習解除を大幅に改善する。我々が提案する出力分布の点推定から確率的評価への移行は、LLMの包括的評価に向けた重要な一歩である。コードはhttps://github.com/yascho/probabilistic-unlearning。

要約(オリジナル)

Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://github.com/yascho/probabilistic-unlearning.

arxiv情報

著者 Yan Scholten,Stephan Günnemann,Leo Schwinn
発行日 2024-12-03 14:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク