要約
大規模な言語モデル(LLMS)の進化のペースには、厳密で包括的な評価のための新しいアプローチが必要です。
伝統的な人間の注釈は、高品質で挑戦的な問題を生み出すために関与する複雑さとコストのために、ますます実行不可能になっています。
この作業では、人間の関与なしにLLMを使用して挑戦的な問題を合成するための統合されたフレームワークであるChaseを紹介します。
特定のタスクについて、私たちのアプローチは、よりシンプルなコンポーネントからボトムアップ方法で困難な問題を構築します。
さらに、私たちのフレームワークは、生成プロセスを独立して検証可能なサブタスクに分解し、それにより高レベルの品質と正確性を確保します。
Chaseを実装して、3つの多様なドメインにわたって評価ベンチマークを作成します。(1)ドキュメントベースの質問応答、(2)リポジトリレベルのコード修了、および(3)数学の推論。
これらの合成ベンチマークでの最先端のLLMのパフォーマンスは、40〜60%の精度の範囲であり、それにより、挑戦的な問題を生み出す際のフレームワークの有効性を実証します。
ベンチマークとコードを公開しています。
要約(オリジナル)
The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.
arxiv情報
著者 | Arkil Patel,Siva Reddy,Dzmitry Bahdanau |
発行日 | 2025-02-20 16:09:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google