Enabling Scalable Oversight via Self-Evolving Critic

要約

大規模言語モデル (LLM) の優れたパフォーマンスにもかかわらず、大規模言語モデル (LLM) の開発は、スケーラブルな監視という重要な課題に直面しています。それは、人間による評価が難しいタスクや、LLM が人間より優れたパフォーマンスを発揮するタスクに効果的なフィードバックを提供することです。
批評に LLM を使用することへの関心が高まっていますが、現在のアプローチは依然として人間による注釈やより強力なモデルに依存しており、外部の監督なしで批評機能を強化するという問題は未解決のままです。
真の批評能力の自己進化を可能にするフレームワークSCRIT(Self-Evolution CRITic)を紹介します。
技術的には、SCRIT は、ステップバイステップの批評のための参照ソリューションを使用する対比ベースの自己批評と、修正結果を通じて批評の品質を保証する自己検証メカニズムによって生成された合成データでのトレーニングによって自己改善します。
最も強力な LLM の 1 つである Qwen2.5-72B-Instruct で実装された SCRIT は、批判修正およびエラー識別ベンチマークで最大 10.3\% の向上を達成します。
私たちの分析により、SCRIT のパフォーマンスはデータとモデルのサイズに応じてプラスに拡張され、他のアプローチよりも優れたパフォーマンスを発揮し、自己検証コンポーネントから大きな恩恵を受けていることが明らかになりました。

要約(オリジナル)

Despite their remarkable performance, the development of Large Language Models (LLMs) faces a critical challenge in scalable oversight: providing effective feedback for tasks where human evaluation is difficult or where LLMs outperform humans. While there is growing interest in using LLMs for critique, current approaches still rely on human annotations or more powerful models, leaving the issue of enhancing critique capabilities without external supervision unresolved. We introduce SCRIT (Self-evolving CRITic), a framework that enables genuine self-evolution of critique abilities. Technically, SCRIT self-improves by training on synthetic data, generated by a contrastive-based self-critic that uses reference solutions for step-by-step critique, and a self-validation mechanism that ensures critique quality through correction outcomes. Implemented with Qwen2.5-72B-Instruct, one of the most powerful LLMs, SCRIT achieves up to a 10.3\% improvement on critique-correction and error identification benchmarks. Our analysis reveals that SCRIT’s performance scales positively with data and model size, outperforms alternative approaches, and benefits critically from its self-validation component.

arxiv情報

著者 Zhengyang Tang,Ziniu Li,Zhenyang Xiao,Tian Ding,Ruoyu Sun,Benyou Wang,Dayiheng Liu,Fei Huang,Tianyu Liu,Bowen Yu,Junyang Lin
発行日 2025-01-10 05:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク