要約
評価は、大規模な言語モデルの開発へのバトンです。
現在の評価では通常、アトミック テストの目的ごとに単一項目の評価パラダイムが採用されており、モデルが本当に必要な機能を備えているのか、それとも特定の質問に対する答えを単に記憶/推測しているだけなのかを識別するのが困難です。
この目的を達成するために、StructEval と呼ばれる新しい評価フレームワークを提案します。
StructEval は、アトミックなテスト目標から開始して、複数の認知レベルと重要な概念にわたって構造化された評価を実行することで評価を深め、拡張するため、LLM に対して包括的で堅牢かつ一貫した評価を提供します。
広く使用されている 3 つのベンチマークに関する実験では、StructEval がデータ汚染のリスクに抵抗し、潜在的なバイアスの干渉を軽減するための信頼できるツールとして機能することを実証し、それによってモデルの機能に関してより信頼性が高く一貫した結論を提供します。
私たちのフレームワークは、将来の原則に基づいた信頼できる LLM 評価プロトコルの設計にも光を当てます。
要約(オリジナル)
Evaluation is the baton for the development of large language models. Current evaluations typically employ a single-item assessment paradigm for each atomic test objective, which struggles to discern whether a model genuinely possesses the required capabilities or merely memorizes/guesses the answers to specific questions. To this end, we propose a novel evaluation framework referred to as StructEval. Starting from an atomic test objective, StructEval deepens and broadens the evaluation by conducting a structured assessment across multiple cognitive levels and critical concepts, and therefore offers a comprehensive, robust and consistent evaluation for LLMs. Experiments on three widely-used benchmarks demonstrate that StructEval serves as a reliable tool for resisting the risk of data contamination and reducing the interference of potential biases, thereby providing more reliable and consistent conclusions regarding model capabilities. Our framework also sheds light on the design of future principled and trustworthy LLM evaluation protocols.
arxiv情報
著者 | Boxi Cao,Mengjie Ren,Hongyu Lin,Xianpei Han,Feng Zhang,Junfeng Zhan,Le Sun |
発行日 | 2024-08-06 16:28:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google