要約
大規模な言語モデル(LLM)の自由回答形式のテキスト生成を評価することは、明確な基本真実がないことと、人間またはLLMベースの評価の高コストのために挑戦的です。
人間の判断やLLM-A-a-a-Judgeアプローチに依存することなく、N-Gram統計とルールを使用してLLMを評価する新しいベンチマークを提案します。
50の質問と参照回答セットを使用して、n-gramsとルールに基づいて3つの新しいメトリックを紹介します:流encyさ、真実性、有用性。
当社のベンチマークは、GPT-4Oベースの評価と強く相関しているが、計算リソースが大幅に少ない必要があるため、LLMSのオープンエンド生成機能を評価するためのスケーラブルな代替手段としての有効性を実証している。
要約(オリジナル)
Evaluating the open-ended text generation of large language models (LLMs) is challenging because of the lack of a clear ground truth and the high cost of human or LLM-based assessments. We propose a novel benchmark that evaluates LLMs using n-gram statistics and rules, without relying on human judgement or LLM-as-a-judge approaches. Using 50 question and reference answer sets, we introduce three new metrics based on n-grams and rules: Fluency, Truthfulness, and Helpfulness. Our benchmark strongly correlates with GPT-4o-based evaluations while requiring significantly fewer computational resources, demonstrating its effectiveness as a scalable alternative for assessing LLMs’ open-ended generation capabilities.
arxiv情報
著者 | Kentaro Imajo,Masanori Hirano,Shuji Suzuki,Hiroaki Mikami |
発行日 | 2025-02-13 13:30:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google