要約
警告有害なモデル出力を含みます。 大きな進歩にもかかわらず、大規模言語モデル(LLM)が有害で非倫理的なコンテンツを生成する傾向は、重大な課題を提起しています。LLMの価値アラインメントを測定することは、LLMの規制と責任ある展開のために極めて重要です。LLMの社会的バイアス、有害性、倫理的問題を評価するために多くのベンチマークが構築されていますが、これらの静的ベンチマークは、モデルが急速に進化するにつれて、既存のベンチマークが学習データに漏れたり、飽和したりして、発展し続けるLLMを過大評価する評価時効効果に悩まされています。この問題に取り組むため、我々は、計測理論における適応的テスト手法に基づく、新しい生成的進化テスト手法であるGETAを提案する。静的なテスト項目プールに依存する従来の適応的テスト手法とは異なり、GETAは、モデル能力に合わせたテスト項目を動的に生成することで、LLMの根底にある道徳的境界を探る。GETAは、項目の難易度とモデル値の適合性の共同分布を学習することにより、LLMと共進化し、評価のクロノエフェクトに効果的に対処する。我々はGETAを用いて様々な一般的なLLMを評価し、1)GETAが動的に難易度に合わせたテスト項目を生成できること、2)GETAの評価結果は、未見のOODやi.i.d.項目に対するモデルの性能とより整合的であることを実証し、将来の評価パラダイムの基礎を築いた。
要約(オリジナル)
Warning: Contains harmful model outputs. Despite significant advancements, the propensity of Large Language Models (LLMs) to generate harmful and unethical content poses critical challenges. Measuring value alignment of LLMs becomes crucial for their regulation and responsible deployment. Although numerous benchmarks have been constructed to assess social bias, toxicity, and ethical issues in LLMs, those static benchmarks suffer from evaluation chronoeffect, in which, as models rapidly evolve, existing benchmarks may leak into training data or become saturated, overestimating ever-developing LLMs. To tackle this problem, we propose GETA, a novel generative evolving testing approach based on adaptive testing methods in measurement theory. Unlike traditional adaptive testing methods that rely on a static test item pool, GETA probes the underlying moral boundaries of LLMs by dynamically generating test items tailored to model capability. GETA co-evolves with LLMs by learning a joint distribution of item difficulty and model value conformity, thus effectively addressing evaluation chronoeffect. We evaluated various popular LLMs with GETA and demonstrated that 1) GETA can dynamically create difficulty-tailored test items and 2) GETA’s evaluation results are more consistent with models’ performance on unseen OOD and i.i.d. items, laying the groundwork for future evaluation paradigms.
arxiv情報
著者 | Han Jiang,Xiaoyuan Yi,Zhihua Wei,Ziang Xiao,Shu Wang,Xing Xie |
発行日 | 2025-02-03 10:33:17+00:00 |
arxivサイト | arxiv_id(pdf) |