要約
大規模言語モデル(LLM)は、回帰やスコアリングタスクを含む様々なアプリケーションで強力な結果を示している。一般的に、モデルの出力分布から自己回帰サンプリングによりLLMの出力を得る。我々は、この推論戦略が、一般的な回帰やスコアリングの評価基準に対して最適ではない可能性があることを示す。改善策として、我々は最小ベイズリスク解読に関する先行研究を基に、サンプリングされた応答から閉形式で回帰と得点評価指標のベイズ最適解を推定する代替推論戦略を提案する。我々の提案は、データセットとモデルにおいて、ベースラインよりも大幅に改善することを示す。
要約(オリジナル)
Large language models (LLMs) have shown strong results on a range of applications, including regression and scoring tasks. Typically, one obtains outputs from an LLM via autoregressive sampling from the model’s output distribution. We show that this inference strategy can be sub-optimal for common regression and scoring evaluation metrics. As a remedy, we build on prior work on Minimum Bayes Risk decoding, and propose alternate inference strategies that estimate the Bayes-optimal solution for regression and scoring metrics in closed-form from sampled responses. We show that our proposal significantly improves over baselines across datasets and models.
arxiv情報
著者 | Michal Lukasik,Harikrishna Narasimhan,Aditya Krishna Menon,Felix Yu,Sanjiv Kumar |
発行日 | 2024-11-01 17:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |