要約
言語モデルを使用した人間が作成したストーリーなどの創造的なテキストを評価することは、マルチアノテーター評価の主観性により、常に挑戦的なタスクでした。
人間の思考プロセスを模倣するために、思考の連鎖(COT)は、モデルの予測と自己整合性(SC)を導くのに役立つフリーテキストの説明を生成し、複数の生成された説明にわたって予測を疎外します。
この研究では、広く使用されている自己整合の推論方法が、「流fluentな」説明と実際にストーリーの側面に対する良好な評価予測につながる客観的な不一致のために、最適ではない結果を引き起こすことがわかります。
この課題を克服するために、$ \ textbf {c} $ hain-$ \ textbf {o} $ \ textbf {ke} $ ywords(coke)を提案します。
次に、このようなキーワードの多様なセットを生成し、これらの世代に対応するスコアを集約します。
ストーリーデータセットでは、小さな微調整された評価モデルに基づいたコーラは、人間レベルのパフォーマンスに到達するだけでなく、ヒトのアノテーターとの相関が2倍のブーストでGPT-4を大幅に上回るだけでなく、パラメーターの数が大幅に少ないことも必要です。
要約(オリジナル)
Evaluating creative text such as human-written stories using language models has always been a challenging task — owing to the subjectivity of multi-annotator ratings. To mimic the thinking process of humans, chain of thought (CoT) generates free-text explanations that help guide a model’s predictions and Self-Consistency (SC) marginalizes predictions over multiple generated explanations. In this study, we discover that the widely-used self-consistency reasoning methods cause suboptimal results due to an objective mismatch between generating ‘fluent-looking’ explanations vs. actually leading to a good rating prediction for an aspect of a story. To overcome this challenge, we propose $\textbf{C}$hain-$\textbf{o}$f-$\textbf{Ke}$ywords (CoKe), that generates a sequence of keywords $\textit{before}$ generating a free-text rationale, that guide the rating prediction of our evaluation language model. Then, we generate a diverse set of such keywords, and aggregate the scores corresponding to these generations. On the StoryER dataset, CoKe based on our small fine-tuned evaluation models not only reach human-level performance and significantly outperform GPT-4 with a 2x boost in correlation with human annotators, but also requires drastically less number of parameters.
arxiv情報
著者 | Brihi Joshi,Sriram Venkatapathy,Mohit Bansal,Nanyun Peng,Haw-Shiuan Chang |
発行日 | 2025-03-21 13:37:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google