要約
大規模な言語モデル(LLMS)の最近の進歩により、テキスト生成機能が大幅に向上していますが、生成ライティングでのパフォーマンスを評価することは依然として課題です。
既存のベンチマークは、主に一般的なテキスト生成に焦点を当てているか、ライティングタスクに制限されており、さまざまなドメインにわたって高品質の書面コンテンツの多様な要件をキャプチャできません。
このギャップを埋めるために、ライティングベンチは、6つのコアライティングドメインと100のサブドメインでLLMを評価するために設計された包括的なベンチマークであり、創造的で説得力のある、有益な、技術的な執筆を網羅しています。
さらに、LLMがインスタンス固有の評価基準を動的に生成できるようにするクエリ依存の評価フレームワークを提案します。
このフレームワークは、基準を認識したスコアリングのための微調整された批評家モデルによって補完され、スタイル、形式、および長さの評価を可能にします。
フレームワークの妥当性は、データキュレーション機能によってさらに実証されており、7Bパラメーターモデルが最新の(SOTA)パフォーマンスにアプローチできるようにします。
LLMの開発を書面で進めるために、評価ツールとモジュラーフレームワークコンポーネントとともに、ベンチマークをオープンソーシングします。
要約(オリジナル)
Recent advancements in large language models (LLMs) have significantly enhanced text generation capabilities, yet evaluating their performance in generative writing remains a challenge. Existing benchmarks primarily focus on generic text generation or limited in writing tasks, failing to capture the diverse requirements of high-quality written contents across various domains. To bridge this gap, we present WritingBench, a comprehensive benchmark designed to evaluate LLMs across 6 core writing domains and 100 subdomains, encompassing creative, persuasive, informative, and technical writing. We further propose a query-dependent evaluation framework that empowers LLMs to dynamically generate instance-specific assessment criteria. This framework is complemented by a fine-tuned critic model for criteria-aware scoring, enabling evaluations in style, format and length. The framework’s validity is further demonstrated by its data curation capability, which enables 7B-parameter models to approach state-of-the-art (SOTA) performance. We open-source the benchmark, along with evaluation tools and modular framework components, to advance the development of LLMs in writing.
arxiv情報
著者 | Yuning Wu,Jiahao Mei,Ming Yan,Chenliang Li,Shaopeng Lai,Yuran Ren,Zijia Wang,Ji Zhang,Mengyue Wu,Qin Jin,Fei Huang |
発行日 | 2025-03-11 12:11:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google