要約
大規模言語モデル (LLM) は、QA や検索などのより客観的なタスクでは優れた結果を示していますが、オープンエンドのテキスト生成でのパフォーマンスを評価することは、(1) データ汚染、
(2) 多面的な評価基準。
(3) 査読者の個人的な好みに起因する主観。
このような問題に対処するために、汚染されていないオープンエンドの発電評価で個別化をモデル化することを提案します。
既存のデータセットを適切な匿名化と新しいパーソナライズされたラベルで再利用することにより、パーソナライズされたストーリー評価用に 2 つの新しいデータセット Per-MPST と Per-DOC を作成します。
さらに、レビュー担当者の好みを推測し、パーソナライズされた評価を提供するために、パーソナライズされたストーリー評価モデル PERSE を開発します。
具体的には、特定の査読者からのいくつかの模範的なレビューが与えられると、PERSE は、新しいテキスト入力に関するその査読者のいくつかの側面 (面白さや驚きなど) における詳細なレビューまたは詳細な比較を予測します。
実験結果は、PERSE がストーリー評価の Kendall 相関に関して 15.8%、ペアごとの嗜好予測精度に関して 13.7% 優れていることを示しています。
データセットとコードの両方がリリースされます。
要約(オリジナル)
While large language models (LLMs) have shown impressive results for more objective tasks such as QA and retrieval, it remains nontrivial to evaluate their performance on open-ended text generation for reasons including (1) data contamination; (2) multi-dimensional evaluation criteria; and (3) subjectiveness stemming from reviewers’ personal preferences. To address such issues, we propose to model personalization in an uncontaminated open-ended generation assessment. We create two new datasets Per-MPST and Per-DOC for personalized story evaluation, by re-purposing existing datasets with proper anonymization and new personalized labels. We further develop a personalized story evaluation model PERSE to infer reviewer preferences and provide a personalized evaluation. Specifically, given a few exemplary reviews from a particular reviewer, PERSE predicts either a detailed review or fine-grained comparison in several aspects (such as interestingness and surprise) for that reviewer on a new text input. Experimental results show that PERSE outperforms GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on pairwise preference prediction accuracy. Both datasets and code will be released.
arxiv情報
著者 | Danqing Wang,Kevin Yang,Hanlin Zhu,Xiaomeng Yang,Andrew Cohen,Lei Li,Yuandong Tian |
発行日 | 2023-10-10 15:15:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google