要約
大規模言語モデル (LLM) は、さまざまな自然言語タスクにわたって顕著な流暢さと能力を示します。
しかし、最近の研究では、入力プロンプトの変化に対する彼らの敏感さが強調されています。
LLM を安全かつ信頼性の高い方法で導入するには、同じ意味または意図を持つ表現でプロンプトが表示されたときに出力が一貫していることが重要です。
いくつかの既存の研究では、最先端の LLM がこの問題にどのように対処するかを調査していますが、その評価は単一または複数の単語の回答の語彙的同等性を評価することに限定されており、生成テキスト シーケンスの一貫性は無視されています。
オープンエンドのテキスト生成シナリオにおける LLM の一貫性をより包括的に理解するために、セマンティック一貫性の一般的な尺度を導入し、さまざまな LLM のパフォーマンスを評価するためにこのメトリックの複数のバージョンを定式化します。
私たちの提案は、語彙の一貫性に基づく従来の指標よりも大幅に高い一貫性と、出力の一貫性に関する人間の評価との強い相関関係を示しています。
最後に、意味の一貫性を高めるために、Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案します。
TruthfulQA ベンチマークからの回答バリエーションに基づいてクローズドブック質問応答を評価すると、A2C は事前トレーニングおよび微調整された LLM の精度メトリクスを最大 47% 向上させ、命令調整モデルのセマンティック一貫性メトリクスを最大 7 倍向上させます。
要約(オリジナル)
Large Language Models (LLMs) exhibit remarkable fluency and competence across various natural language tasks. However, recent research has highlighted their sensitivity to variations in input prompts. To deploy LLMs in a safe and reliable manner, it is crucial for their outputs to be consistent when prompted with expressions that carry the same meaning or intent. While some existing work has explored how state-of-the-art LLMs address this issue, their evaluations have been confined to assessing lexical equality of single- or multi-word answers, overlooking the consistency of generative text sequences. For a more comprehensive understanding of the consistency of LLMs in open-ended text generation scenarios, we introduce a general measure of semantic consistency, and formulate multiple versions of this metric to evaluate the performance of various LLMs. Our proposal demonstrates significantly higher consistency and stronger correlation with human evaluations of output consistency than traditional metrics based on lexical consistency. Finally, we propose a novel prompting strategy, called Ask-to-Choose (A2C), to enhance semantic consistency. When evaluated for closed-book question answering based on answer variations from the TruthfulQA benchmark, A2C increases accuracy metrics for pretrained and finetuned LLMs by up to 47%, and semantic consistency metrics for instruction-tuned models by up to 7-fold.
arxiv情報
著者 | Harsh Raj,Vipul Gupta,Domenic Rosati,Subhabrata Majumdar |
発行日 | 2023-08-17 18:11:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google