A Probabilistic Perspective on Unlearning and Alignment for Large Language Models

要約

大規模言語モデル (LLM) の包括的な評価は未解決の研究課題です。
既存の評価は、貪欲なデコードによって生成された決定論的な点推定に依存しています。
ただし、決定論的評価ではモデルの出力分布全体を捉えることができず、モデルの機能の推定が不正確になることがわかりました。
これは、正確なモデル評価が重要である、アンラーニングやアラインメントなどの重要な状況において特に問題となります。
これを解決するために、LLM に最初の正式な確率的評価フレームワークを導入します。
つまり、モデルの出力分布に関して高い確率が保証された新しいメトリクスを導出します。
私たちのメトリクスはアプリケーションに依存しないため、実務者は展開前にモデルの機能についてより信頼性の高い推定を行うことができます。
私たちは、未学習に焦点を当てたケーススタディを通じて、決定論的評価は誤って未学習の成功を示していることを明らかにしましたが、確率論的評価は、未学習と思われる情報のすべてではないにしても、ほとんどがこれらのモデルでアクセス可能なままであることを示しています。
さらに、エントロピー最適化と適応温度スケーリングに基づいた新しい未学習損失を提案します。これにより、最近のベンチマークにおける確率的設定での未学習が大幅に改善されます。
私たちが提案する点推定から出力分布の確率的評価への移行は、LLM の包括的な評価に向けた重要なステップとなります。
コードは https://github.com/yascho/probabilistic-unlearning で入手できます

要約(オリジナル)

Comprehensive evaluation of Large Language Models (LLMs) is an open research problem. Existing evaluations rely on deterministic point estimates generated via greedy decoding. However, we find that deterministic evaluations fail to capture the whole output distribution of a model, yielding inaccurate estimations of model capabilities. This is particularly problematic in critical contexts such as unlearning and alignment, where precise model evaluations are crucial. To remedy this, we introduce the first formal probabilistic evaluation framework in LLMs. Namely, we derive novel metrics with high-probability guarantees concerning the output distribution of a model. Our metrics are application-independent and allow practitioners to make more reliable estimates about model capabilities before deployment. Through a case study focused on unlearning, we reveal that deterministic evaluations falsely indicate successful unlearning, whereas our probabilistic evaluations demonstrate that most if not all of the supposedly unlearned information remains accessible in these models. Additionally, we propose a novel unlearning loss based on entropy optimization and adaptive temperature scaling, which significantly improves unlearning in probabilistic settings on recent benchmarks. Our proposed shift from point estimates to probabilistic evaluations of output distributions represents an important step toward comprehensive evaluations of LLMs. Code available at https://github.com/yascho/probabilistic-unlearning

arxiv情報

著者 Yan Scholten,Stephan Günnemann,Leo Schwinn
発行日 2024-10-29 14:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク