A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis

要約

大規模な言語モデル(LLM)の自由回答形式のテキスト生成を評価することは、明確な基本真実がないことと、人間またはLLMベースの評価の高コストのために挑戦的です。
人間の判断やLLM-A-a-a-Judgeアプローチに依存することなく、N-Gram統計とルールを使用してLLMを評価する新しいベンチマークを提案します。
50の質問と参照回答セットを使用して、n-gramsとルールに基づいて3つの新しいメトリックを紹介します:流encyさ、真実性、有用性。
当社のベンチマークは、GPT-4Oベースの評価と強く相関しているが、計算リソースが大幅に少ない必要があるため、LLMSのオープンエンド生成機能を評価するためのスケーラブルな代替手段としての有効性を実証している。

要約(オリジナル)

Evaluating the open-ended text generation of large language models (LLMs) is challenging because of the lack of a clear ground truth and the high cost of human or LLM-based assessments. We propose a novel benchmark that evaluates LLMs using n-gram statistics and rules, without relying on human judgement or LLM-as-a-judge approaches. Using 50 question and reference answer sets, we introduce three new metrics based on n-grams and rules: Fluency, Truthfulness, and Helpfulness. Our benchmark strongly correlates with GPT-4o-based evaluations while requiring significantly fewer computational resources, demonstrating its effectiveness as a scalable alternative for assessing LLMs’ open-ended generation capabilities.

arxiv情報

著者 Kentaro Imajo,Masanori Hirano,Shuji Suzuki,Hiroaki Mikami
発行日 2025-02-13 13:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク