要約
大規模な言語モデルの不確実性を測定する方法を紹介します。
質問応答のようなタスクでは、基礎モデルの自然言語出力をいつ信頼できるかを知ることが不可欠です。
自然言語の不確実性を測定することは、「意味論的等価性」のために困難であることを示します。異なる文が同じことを意味する可能性があります。
これらの課題を克服するために、セマンティック エントロピーを導入します。これは、共有された意味によって作成された言語的不変性を組み込んだエントロピーです。
私たちの方法は教師なしで、単一のモデルのみを使用し、市販の言語モデルを変更する必要はありません。
包括的なアブレーション研究では、セマンティック エントロピーが、同等のベースラインよりも質問応答データ セットのモデル精度をより予測できることを示しています。
要約(オリジナル)
We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is challenging because of ‘semantic equivalence’ — different sentences can mean the same thing. To overcome these challenges we introduce semantic entropy — an entropy which incorporates linguistic invariances created by shared meanings. Our method is unsupervised, uses only a single model, and requires no modifications to off-the-shelf language models. In comprehensive ablation studies we show that the semantic entropy is more predictive of model accuracy on question answering data sets than comparable baselines.
arxiv情報
著者 | Lorenz Kuhn,Yarin Gal,Sebastian Farquhar |
発行日 | 2023-02-21 16:30:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google