Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models

要約

現在の大規模言語モデル (LLM) を評価するベンチマークには、評価内容の制限、更新時期の遅さ、最適化ガイダンスの欠如などの問題があります。
この論文では、LLM の測定のための新しいパラダイム、つまりベンチマーク – 評価 – 評価を提案します。
私たちのパラダイムは、LLM 評価の「場所」を「診察室」から「病院」にシフトします。
LLM の「物理的検査」を実施することにより、特定のタスク解決を評価内容として利用し、LLM 内に存在する問題の詳細な原​​因特定を実行し、最適化のための推奨事項を提供します。

要約(オリジナル)

In current benchmarks for evaluating large language models (LLMs), there are issues such as evaluation content restriction, untimely updates, and lack of optimization guidance. In this paper, we propose a new paradigm for the measurement of LLMs: Benchmarking-Evaluation-Assessment. Our paradigm shifts the ‘location’ of LLM evaluation from the ‘examination room’ to the ‘hospital’. Through conducting a ‘physical examination’ on LLMs, it utilizes specific task-solving as the evaluation content, performs deep attribution of existing problems within LLMs, and provides recommendation for optimization.

arxiv情報

著者 Jin Liu,Qingquan Li,Wenlong Du
発行日 2024-07-10 10:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク