RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

要約

批判は大規模言語モデル (LLM) のパフォーマンスを向上させるために重要であり、欠陥を特定して改善を提案することで、自己改善と他の人への建設的なフィードバックの両方を可能にします。
ただし、LLM の批評能力を評価することは、タスクの制限のない性質のため、大きな課題となります。
この研究では、LLM の批評能力を評価するために設計された新しいベンチマークを導入します。
通常、開ループ方式で機能する既存のベンチマークとは異なり、私たちのアプローチは、批評から生成された修正の品質を評価する閉ループ方法論を採用しています。
さらに、このベンチマークには、自己批評、相互批評、反復批評などの機能が組み込まれており、これらは高度な推論モデルの能力をより古典的な推論モデルから区別するために重要です。
このベンチマークは、8 つの困難な推論タスクを使用して実装されます。
いくつかの興味深い発見がありました。
まず、古典的な LLM は、思考連鎖の直接生成において同等のパフォーマンスを示しているにもかかわらず、すべての批評シナリオにわたって高度な推論ベースのモデル o1-mini に大きく遅れをとっています。
第 2 に、自己批評や反復批評の設定では、古典的な LLM のパフォーマンスがベースラインの能力に比べて劣る可能性さえあります。
このベンチマークが将来の進歩を導く貴重なリソースとして役立つことを願っています。
コードとデータは \url{https://github.com/tangzhy/RealCritic} で入手できます。

要約(オリジナル)

Critiques are important for enhancing the performance of Large Language Models (LLMs), enabling both self-improvement and constructive feedback for others by identifying flaws and suggesting improvements. However, evaluating the critique capabilities of LLMs presents a significant challenge due to the open-ended nature of the task. In this work, we introduce a new benchmark designed to assess the critique capabilities of LLMs. Unlike existing benchmarks, which typically function in an open-loop fashion, our approach employs a closed-loop methodology that evaluates the quality of corrections generated from critiques. Moreover, the benchmark incorporates features such as self-critique, cross-critique, and iterative critique, which are crucial for distinguishing the abilities of advanced reasoning models from more classical ones. We implement this benchmark using eight challenging reasoning tasks. We have several interesting findings. First, despite demonstrating comparable performance in direct chain-of-thought generation, classical LLMs significantly lag behind the advanced reasoning-based model o1-mini across all critique scenarios. Second, in self-critique and iterative critique settings, classical LLMs may even underperform relative to their baseline capabilities. We hope that this benchmark will serve as a valuable resource to guide future advancements. The code and data are available at \url{https://github.com/tangzhy/RealCritic}.

arxiv情報

著者 Zhengyang Tang,Ziniu Li,Zhenyang Xiao,Tian Ding,Ruoyu Sun,Benyou Wang,Dayiheng Liu,Fei Huang,Tianyu Liu,Bowen Yu,Junyang Lin
発行日 2025-01-24 13:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク