要約
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強力な結果を示してきた。通常、出力はLLMの基礎となる分布から自己回帰サンプリングによって得られる。最小ベイズリスクデコーディングに関する先行研究を基に、我々は、この推論戦略が、様々な回帰タスクやスコアリングタスク、そして関連する評価指標に対して最適ではない可能性があることを示す。この解決策として、我々はメトリックを考慮したLLM推論を提案する:推論時にカスタム回帰とスコアリングのメトリックを最適化する決定理論的アプローチである。アカデミックベンチマークと一般に公開されているモデルにおいて、ベースラインよりも改善されたことを報告する。
要約(オリジナル)
Large language models (LLMs) have demonstrated strong results on a range of NLP tasks. Typically, outputs are obtained via autoregressive sampling from the LLM’s underlying distribution. Building on prior work on Minimum Bayes Risk Decoding, we show that this inference strategy can be suboptimal for a range of regression and scoring tasks, and associated evaluation metrics. As a remedy, we propose metric aware LLM inference: a decision theoretic approach optimizing for custom regression and scoring metrics at inference time. We report improvements over baselines on academic benchmarks and publicly available models.
arxiv情報
著者 | Michal Lukasik,Harikrishna Narasimhan,Aditya Krishna Menon,Felix Yu,Sanjiv Kumar |
発行日 | 2024-04-04 13:48:19+00:00 |
arxivサイト | arxiv_id(pdf) |