Turning Down the Heat: A Critical Analysis of Min-p Sampling in Language Models

要約

言語モデルからのサンプリングは、出力の品質と多様性に影響を与え、研究と現実世界のアプリケーションの両方に影響します。
最近、Nguyen et al。
2024年の「ヒートの電源:クリエイティブおよびコヒーレントLLM出力のためのMIN-Pサンプリング」は、MIN-Pと呼ばれる新しいサンプラーを導入し、基本、TOP-K、TOP-Pサンプリングなどの確立されたサンプラーよりも優れた品質と多様性を達成すると主張しています。
これらの主張の重要性は、ICLR 2025への18番目に高いスコアリングの提出および口頭発表の選択としての論文の認識によって強調されました。
この論文は、MIN-Pを支持する証拠の包括的な再審査を実施し、元の論文の4つの証拠から異なる結論に達します。
まず、元の論文の人間の評価では、データが省略され、統計テストが誤って実施され、不正確に定性的フィードバックが説明されています。
私たちの再分析は、MIN-Pが品質、多様性、または品質と多様性のトレードオフのベースラインよりも優れていなかったことを示しています。
私たちの調査結果に応えて、元の論文の著者は、それにもかかわらず、MIN-Pがベースラインよりも改善しないさらなる証拠を提供する、異なる実装、タスク、およびルーブリックを使用して新しい人間の評価を実施しました。
第二に、元の論文のNLPベンチマークを包括的にスイープすると、HyperParametersの数を制御する際にMIN-Pがベースラインを上回らないことが明らかになります。
第三に、元の論文のLLM-As-a-Judgeの評価には、方法論的な明確性がなく、一貫性のない報告が報告されているように見えます。
第4に、コミュニティの採用請求(49kのGithubリポジトリ、1.1m Github星)が根拠のないことがわかったため、それらの除去につながりました。
改訂された養子縁組請求は誤解を招く依然として。
元の論文で提示された証拠は、MIN-Pが品質、多様性、または品質と多様性のトレードオフを改善するという主張を支持していないと結論付けています。

要約(オリジナル)

Sampling from language models impacts the quality and diversity of outputs, affecting both research and real-world applications. Recently, Nguyen et al. 2024’s ‘Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs’ introduced a new sampler called min-p, claiming it achieves superior quality and diversity over established samplers such as basic, top-k, and top-p sampling. The significance of these claims was underscored by the paper’s recognition as the 18th highest-scoring submission to ICLR 2025 and selection for an Oral presentation. This paper conducts a comprehensive re-examination of the evidence supporting min-p and reaches different conclusions from the original paper’s four lines of evidence. First, the original paper’s human evaluations omitted data, conducted statistical tests incorrectly, and described qualitative feedback inaccurately; our reanalysis demonstrates min-p did not outperform baselines in quality, diversity, or a trade-off between quality and diversity; in response to our findings, the authors of the original paper conducted a new human evaluation using a different implementation, task, and rubric that nevertheless provides further evidence min-p does not improve over baselines. Second, comprehensively sweeping the original paper’s NLP benchmarks reveals min-p does not surpass baselines when controlling for the number of hyperparameters. Third, the original paper’s LLM-as-a-Judge evaluations lack methodological clarity and appear inconsistently reported. Fourth, community adoption claims (49k GitHub repositories, 1.1M GitHub stars) were found to be unsubstantiated, leading to their removal; the revised adoption claim remains misleading. We conclude that evidence presented in the original paper fails to support claims that min-p improves quality, diversity, or a trade-off between quality and diversity.

arxiv情報

著者 Rylan Schaeffer,Joshua Kazdan,Yegor Denisov-Blanch
発行日 2025-06-16 16:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク