要約
大規模言語モデル (LLM) は、さまざまなドメインの幅広いタスクにわたって優れた機能を実証してきました。
彼らの印象的なパフォーマンスにもかかわらず、世代間の事実誤認により信頼できない場合があります。
彼らの信頼を評価し、さまざまなタスクにわたってそれらを調整することは、リスクを軽減し、LLM がより良い世代を生成できるようにするのに役立ちます。
これに対処することを目的とした最近の研究は数多くありますが、それを整理し、得られた主な教訓を概説するための包括的な概要はありません。
今回の調査は、このギャップを埋めることを目的としています。
特に、課題の概要を説明し、LLM 信頼度の推定と校正に関する最近の技術的進歩を要約します。
それらのアプリケーションについてさらに議論し、将来の研究の有望な方向性を提案します。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks in various domains. Despite their impressive performance, they can be unreliable due to factual errors in their generations. Assessing their confidence and calibrating them across different tasks can help mitigate risks and enable LLMs to produce better generations. There has been a lot of recent research aiming to address this, but there has been no comprehensive overview to organize it and outline the main lessons learned. The present survey aims to bridge this gap. In particular, we outline the challenges and we summarize recent technical advancements for LLM confidence estimation and calibration. We further discuss their applications and suggest promising directions for future work.
arxiv情報
著者 | Jiahui Geng,Fengyu Cai,Yuxia Wang,Heinz Koeppl,Preslav Nakov,Iryna Gurevych |
発行日 | 2024-03-25 06:01:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google