Measuring Reliability of Large Language Models through Semantic Consistency

要約

タイトル:意味の一貫性を通じて大規模言語モデルの信頼性を測定する

要約:
– 大規模事前学習言語モデル(PLM)は、自然言語タスクにおいて驚くべき流暢さとパフォーマンスを発揮し、高い精度を示します。
– しかし、最近の研究によれば、よく機能するPLMは、どのプロンプトが与えられるかに非常に敏感であり、意味が同じであるにもかかわらず、大きく異なる回答を与えることがあります。
– 安全で信頼性の高いPLMの展開を考慮するときには、同じ意味を持つまたは同じ意図を伝えるプロンプトに対して一貫した出力を望みます。
– 現在のPLMがこのニーズにどのように対処しているかを解析した研究はありますが、これらは単一または複数の単語の回答のレキシカルな一致のみを評価し、生成テキストシーケンスの一貫性には対処していません。
– PLMの一貫性をテキスト生成設定下で理解するために、オープンエンドテキスト出力の比較を可能にする意味の一貫性の尺度を開発しました。
– TruthfulQAデータセットの意味を言い換えた質問の複数のバージョンを評価するために、この一貫性指標の複数のバージョンを実装し、提案されたメトリックは従来のレキシカル一貫性のメトリックよりもかなり一貫していることがわかり、出力の一貫性の人間の評価とも高い相関関係があることがわかりました。

要約(オリジナル)

While large pretrained language models (PLMs) demonstrate incredible fluency and performance on many natural language tasks, recent work has shown that well-performing PLMs are very sensitive to what prompts are feed into them. Even when prompts are semantically identical, language models may give very different answers. When considering safe and trustworthy deployments of PLMs we would like their outputs to be consistent under prompts that mean the same thing or convey the same intent. While some work has looked into how state-of-the-art PLMs address this need, they have been limited to only evaluating lexical equality of single- or multi-word answers and do not address consistency of generative text sequences. In order to understand consistency of PLMs under text generation settings, we develop a measure of semantic consistency that allows the comparison of open-ended text outputs. We implement several versions of this consistency metric to evaluate the performance of a number of PLMs on paraphrased versions of questions in the TruthfulQA dataset, we find that our proposed metrics are considerably more consistent than traditional metrics embodying lexical consistency, and also correlate with human evaluation of output consistency to a higher degree.

arxiv情報

著者 Harsh Raj,Domenic Rosati,Subhabrata Majumdar
発行日 2023-04-11 18:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク