要約
現在の大規模言語モデル (LLM) を評価するベンチマークには、評価内容の制限、更新時期の遅さ、最適化ガイダンスの欠如などの問題があります。
この論文では、LLM の測定のための新しいパラダイム、つまりベンチマーク – 評価 – 評価を提案します。
私たちのパラダイムは、LLM 評価の「場所」を「診察室」から「病院」にシフトします。
LLM の「物理的検査」を実施することにより、特定のタスク解決を評価内容として利用し、LLM 内に存在する問題の詳細な原因特定を実行し、最適化のための推奨事項を提供します。
要約(オリジナル)
In current benchmarks for evaluating large language models (LLMs), there are issues such as evaluation content restriction, untimely updates, and lack of optimization guidance. In this paper, we propose a new paradigm for the measurement of LLMs: Benchmarking-Evaluation-Assessment. Our paradigm shifts the ‘location’ of LLM evaluation from the ‘examination room’ to the ‘hospital’. Through conducting a ‘physical examination’ on LLMs, it utilizes specific task-solving as the evaluation content, performs deep attribution of existing problems within LLMs, and provides recommendation for optimization.
arxiv情報
著者 | Jin Liu,Qingquan Li,Wenlong Du |
発行日 | 2024-07-10 10:42:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google