AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation

要約

AIが生成したテキストは、創造的な執筆やジャーナリズムからマーケティングのコンテンツや科学記事まで、ドメイン全体で増殖しています。
モデルは、ユーザーが提供する指示に従ってコヒーレントで文法的に正しい出力を生成できますが、この作業では、より基本的な質問を研究します。AI生成テキストのライティング品質をどのように評価および改善しますか?
品質評価を書くことは、基本的に主観的で専門知識が必要であるため、コミュニティからあまり注目されていません。
最初に、5つのライティングプレーファレンスデータセットを4,729の執筆品質判断に統合することにより、執筆品質ベンチマーク(WQ)を紹介します。
私たちの実験は、推論タスクに優れている最先端のLLMを含む競争力のあるベースラインが、WQのランダムベースラインをかろうじて上回ることを示しています。
次に、4つの分散テストセットで強力な一般化とWQベンチマークで74%の精度を示すために、さまざまなサイズの専門的なライティング品質報酬モデル(WQRM)を訓練します。
推論中のWQRMの実際的な利点をさらに示すために、追加のテスト時間計算を活用して複数の候補の改訂を生成およびランク付けし、初期ドラフトから高品質の出力を選択できるようにします。
9人の経験豊富な作家との人間の評価は、WQRMベースの選択が、全体で66%の専門家が好む執筆サンプルを生成し、報酬ギャップが1ポイントを超えると72.2%を生成することを確認しています。
データセットとモデルをリリースして、人間の好みに合ったAIライティングシステムの品質評価と開発の作成とのコミュニティの関与を促進します。

要約(オリジナル)

AI-generated text is proliferating across domains, from creative writing and journalism to marketing content and scientific articles. Models can follow user-provided instructions to generate coherent and grammatically correct outputs but in this work, we study a more fundamental question: how do we evaluate and improve the writing quality of AI-generated text? Writing quality assessment has received less attention from the community, in part because it is fundamentally subjective and requires expertise. We first introduce the Writing Quality Benchmark (WQ) by consolidating five writing-preference datasets into 4,729 writing quality judgments. Our experiments show that competitive baselines, including state-of-the-art LLMs that excel at reasoning tasks, barely outperform random baselines on WQ. We then train specialized Writing Quality Reward Models (WQRM) of various sizes for writing quality assessment that demonstrate strong generalization on four out-of-distribution test sets and 74% accuracy on the WQ benchmark. To further show WQRM’s practical benefits during inference, we leverage additional test-time compute to generate and rank multiple candidate revisions, allowing us to select higher-quality outputs from an initial draft. Human evaluation with 9 experienced writers confirm that WQRM-based selection produces writing samples preferred by experts 66% overall, and 72.2% when the reward gap is larger than 1 point. We release our datasets and models to encourage community engagement with writing quality assessment and development of AI writing systems better aligned with human preferences.

arxiv情報

著者 Tuhin Chakrabarty,Philippe Laban,Chien-Sheng Wu
発行日 2025-04-10 07:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク