要約
大規模言語モデル (LLM) が答えを提供することを拒否する棄権は、幻覚を軽減し、LLM システムの安全性を高める可能性があるとますます認識されています。
この調査では、棄権を質問、モデル、人間的価値の 3 つの観点から検討するためのフレームワークを導入します。
このフレームワークを使用して棄権方法、ベンチマーク、評価指標に関する文献を整理し、以前の研究のメリットと限界について議論します。
さらに、文脈に基づいて棄権能力を最適化する機会を提供しながら、特定のタスクや領域を超えたメタ能力として棄権を達成できるかどうかを中心に、今後の取り組みの領域を特定し、動機付けします。
要約(オリジナル)
Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in LLM systems. In this survey, we introduce a framework to examine abstention from three perspectives: the query, the model, and human values. We organize the literature on abstention methods, benchmarks, and evaluation metrics using this framework, and discuss merits and limitations of prior work. We further identify and motivate areas for future work, centered around whether abstention can be achieved as a meta-capability that transcends specific tasks or domains, while still providing opportunities to optimize abstention abilities based on context.
arxiv情報
著者 | Bingbing Wen,Jihan Yao,Shangbin Feng,Chenjun Xu,Yulia Tsvetkov,Bill Howe,Lucy Lu Wang |
発行日 | 2024-08-08 17:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google