YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

要約

大規模な言語モデル(LLMS)は、最新の検索エンジンで科学的な質問を駆動しますが、その評価の堅牢性は未熟さのままです。
YESCIEVALを紹介します。これは、LLM評価者の楽観主義バイアスを緩和するための、きめ細かいルーブリックベースの評価と強化学習を組み合わせたオープンソースフレームワークです。
複数のLLMの評価スコアを含む、敵対的なバリアントを含む学際的な科学QおよびAデータセットをリリースします。
独自のモデルと人間のフィードバックとは無関係に、当社のアプローチは、スケーラブルでコストのない評価を可能にします。
信頼できるLLM-A-A-Judgeモデルを進めることにより、この作業はAIのアライメントをサポートし、科学的調査に不可欠な堅牢で透明な評価を促進します。

要約(オリジナル)

Large Language Models (LLMs) drive scientific question-answering on modern search engines, yet their evaluation robustness remains underexplored. We introduce YESciEval, an open-source framework that combines fine-grained rubric-based assessment with reinforcement learning to mitigate optimism bias in LLM evaluators. We release multidisciplinary scienceQ&A datasets, including adversarial variants, with evaluation scores from multiple LLMs. Independent of proprietary models and human feedback, our approach enables scalable, cost-free evaluation. By advancing reliable LLM-as-a-judge models, this work supports AI alignment and fosters robust, transparent evaluation essential for scientific inquiry.

arxiv情報

著者 Jennifer D’Souza,Hamed Babaei Giglou,Quentin Münch
発行日 2025-05-29 16:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク