Holistic Evaluation of Language Models

要約

言語モデル (LM) は、ほぼすべての主要な言語テクノロジの基盤になりつつありますが、その機能、制限、リスクは十分に理解されていません。
言語モデルの透明性を向上させるために、言語モデルの全体的評価 (HELM) を紹介します。
まず、LM にとって関心のある潜在的なシナリオ (つまり、ユースケース) と指標 (つまり、要望) の膨大な空間を分類します。
次に、カバレッジと実現可能性に基づいて広範なサブセットを選択し、欠落しているものや過小評価されているものに注目します (例: 無視されている英語の方言に対する質問応答、信頼性の指標)。
2 番目に、マルチメトリクスアプローチを採用します。可能な場合 (時間の 87.5%)、16 のコアシナリオのそれぞれについて 7 つのメトリクス (精度、校正、堅牢性、公平性、バイアス、有害性、効率) を測定します。
これにより、精度を超えたメトリクスが道端に陥ることがなくなり、トレードオフが明確に明らかになります。
また、特定の側面 (推論、偽情報など) を分析するために、26 の対象を絞ったシナリオに基づいて 7 つの対象を絞った評価を実行します。
3 番目に、42 のシナリオすべてについて、30 の著名な言語モデル (オープン、アクセス制限、クローズド モデルにわたる) の大規模評価を実施します。そのうち 21 シナリオは、これまで主流の LM 評価では使用されていませんでした。
HELM が導入される前は、モデルは平均してコア HELM シナリオのわずか 17.9% で評価されており、一部の著名なモデルは共通のシナリオを 1 つも共有していませんでした。
これを 96.0% に改善しました。現在、30 モデルすべてが、標準化された条件下で同じコア シナリオとメトリクスに基づいて高密度にベンチマークされています。
私たちの評価では、25 のトップレベルの調査結果が明らかになりました。
完全な透明性を確保するために、さらなる分析のためにすべての生のモデルのプロンプトと完成品、および一般的なモジュール式ツールキットを公開します。
私たちは、HELM がコミュニティの生きたベンチマークとなり、新しいシナリオ、指標、モデルで継続的に更新されることを目指しています。

要約(オリジナル)

Language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic Evaluation of Language Models (HELM) to improve the transparency of language models. First, we taxonomize the vast space of potential scenarios (i.e. use cases) and metrics (i.e. desiderata) that are of interest for LMs. Then we select a broad subset based on coverage and feasibility, noting what’s missing or underrepresented (e.g. question answering for neglected English dialects, metrics for trustworthiness). Second, we adopt a multi-metric approach: We measure 7 metrics (accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency) for each of 16 core scenarios when possible (87.5% of the time). This ensures metrics beyond accuracy don’t fall to the wayside, and that trade-offs are clearly exposed. We also perform 7 targeted evaluations, based on 26 targeted scenarios, to analyze specific aspects (e.g. reasoning, disinformation). Third, we conduct a large-scale evaluation of 30 prominent language models (spanning open, limited-access, and closed models) on all 42 scenarios, 21 of which were not previously used in mainstream LM evaluation. Prior to HELM, models on average were evaluated on just 17.9% of the core HELM scenarios, with some prominent models not sharing a single scenario in common. We improve this to 96.0%: now all 30 models have been densely benchmarked on the same core scenarios and metrics under standardized conditions. Our evaluation surfaces 25 top-level findings. For full transparency, we release all raw model prompts and completions publicly for further analysis, as well as a general modular toolkit. We intend for HELM to be a living benchmark for the community, continuously updated with new scenarios, metrics, and models.

arxiv情報

著者 Percy Liang,Rishi Bommasani,Tony Lee,Dimitris Tsipras,Dilara Soylu,Michihiro Yasunaga,Yian Zhang,Deepak Narayanan,Yuhuai Wu,Ananya Kumar,Benjamin Newman,Binhang Yuan,Bobby Yan,Ce Zhang,Christian Cosgrove,Christopher D. Manning,Christopher Ré,Diana Acosta-Navas,Drew A. Hudson,Eric Zelikman,Esin Durmus,Faisal Ladhak,Frieda Rong,Hongyu Ren,Huaxiu Yao,Jue Wang,Keshav Santhanam,Laurel Orr,Lucia Zheng,Mert Yuksekgonul,Mirac Suzgun,Nathan Kim,Neel Guha,Niladri Chatterji,Omar Khattab,Peter Henderson,Qian Huang,Ryan Chi,Sang Michael Xie,Shibani Santurkar,Surya Ganguli,Tatsunori Hashimoto,Thomas Icard,Tianyi Zhang,Vishrav Chaudhary,William Wang,Xuechen Li,Yifan Mai,Yuhui Zhang,Yuta Koreeda
発行日 2023-10-01 21:44:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク