要約
言語モデルの意味的一貫性は、意味的に同等の入力が与えられた場合に、意味的に同等の出力を生成するモデルの能力として広く定義されます。
私たちは、事実に基づく質問に対する高品質な言い換えを含むベンチマーク データセットを手動で作成し、そのデータセットをコミュニティにリリースすることで、現代の大規模言語モデル (LLM) の質問応答 (QA) の意味的一貫性を評価するタスクに取り組みます。
さらに、事実に基づく QA 参照なしのパフォーマンス予測、つまり言語モデルが質問に正確に答える可能性を予測するためのフレームワークを構築および評価するために、LLM QA の精度と相関するとして以前の研究で提案された追加の測定値と意味的一貫性のメトリクスを組み合わせます。
5 つの最新の LLM に基づいてフレームワークを評価したところ、ベースラインを大幅に上回る有望な結果が得られたことがわかりました。
要約(オリジナル)
Semantic consistency of a language model is broadly defined as the model’s ability to produce semantically-equivalent outputs, given semantically-equivalent inputs. We address the task of assessing question-answering (QA) semantic consistency of contemporary large language models (LLMs) by manually creating a benchmark dataset with high-quality paraphrases for factual questions, and release the dataset to the community. We further combine the semantic consistency metric with additional measurements suggested in prior work as correlating with LLM QA accuracy, for building and evaluating a framework for factual QA reference-less performance prediction — predicting the likelihood of a language model to accurately answer a question. Evaluating the framework on five contemporary LLMs, we demonstrate encouraging, significantly outperforming baselines, results.
arxiv情報
著者 | Ella Rabinovich,Samuel Ackerman,Orna Raz,Eitan Farchi,Ateret Anaby-Tavor |
発行日 | 2023-11-02 11:27:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google