要約
OpenaiによるO1モデルのリリースにより、ゆっくりと思考戦略を採用する推論モデルが徐々に現れました。
このようなモデルによって生成された応答には、複雑な推論、中間ステップ、自己反省が含まれることが多いため、既存の評価方法はしばしば不十分です。
彼らは、LLM出力が参照答えと本当に同等であるかどうかを判断するのに苦労し、また、長く複雑な応答から最終的な答えを特定して抽出するのが困難です。
この問題に対処するために、推論モデル評価のための効率的な回答検証剤であるXverifyを提案します。
Xverifyは、同等の判断における強力な能力を示し、推論モデルによって生成された回答がさまざまなタイプの客観的な質問にわたる参照回答と同等であるかどうかを効果的に決定できるようにします。
Xverifyを訓練および評価するために、さまざまなデータセットで複数のLLMによって生成された質問回答ペアを収集し、複数の推論モデルを活用し、モデルの推論モデル評価のために特異的に設計された挑戦的な評価セットを収集することにより、VARデータセットを構築します。
ラベルの精度を確保するために、マルチラウンドの注釈プロセスが採用されています。
VARデータセットに基づいて、異なるスケールの複数のXVerifyモデルをトレーニングします。
テストセットと一般化セットの両方で実施された評価実験では、すべてのXverifyモデルが95 \%を超える全体的なF1スコアと精度を達成します。
特に、最小のバリアントであるXverify-0.5B-Iは、GPT-4oを除くすべての評価方法を上回り、Xverify-3B-IBは全体的なパフォーマンスでGPT-4Oを上回ります。
これらの結果は、Xverifyの有効性と一般化可能性を検証します。
要約(オリジナル)
With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.
arxiv情報
著者 | Ding Chen,Qingchen Yu,Pengyuan Wang,Wentao Zhang,Bo Tang,Feiyu Xiong,Xinchi Li,Minchuan Yang,Zhiyu Li |
発行日 | 2025-04-14 17:59:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google