Eliciting Informative Text Evaluations with Large Language Models

要約

ピア予測メカニズムは、証明可能な保証を備えた高品質のフィードバックを動機付けます。
ただし、現在の方法は、多肢選択やスカラー数値など、かなり単純なレポートにのみ適用されます。
私たちは、大規模な言語モデルの最近の発展を利用して、これらの手法をテキストベースのレポートのより大きな領域に拡張することを目指しています。
これにより、ピア レビュー、電子商取引の顧客レビュー、ソーシャル メディアのコメントなど、さまざまなフィードバック チャネルでテキストによるフィードバックが標準となるため、ピア予測メカニズムの適用可能性が大幅に高まります。
生成的ピア予測メカニズム (GPPM) と生成的シノプシス ピア予測メカニズム (GSPPM) の 2 つのメカニズムを導入します。
これらのメカニズムは、LLM を予測子として利用し、あるエージェントのレポートをそのピアのレポートの予測にマッピングします。
理論的には、LLM 予測が十分に正確である場合、私たちのメカニズムは、(近似的な) ベイジアン ナッシュ均衡として高い努力と真実を伝えることを奨励できることを示します。
Yelp レビュー データセットと ICLR OpenReview データセットという 2 つの実際のデータセットに対して行われた実験を通じて、メカニズムの有効性が経験的に確認されています。
私たちは、ICLR データセット上で、私たちのメカニズムが 3 つの品質レベル (人間が書いたレビュー、GPT-4 で生成されたレビュー、GPT-3.5 で生成されたレビュー) を、期待されるスコアの観点から区別できるという結果を強調します。
さらに、GSPPM は、LLM によって生成されたレビューに対して GPPM よりも効果的にペナルティを与えます。

要約(オリジナル)

Peer prediction mechanisms motivate high-quality feedback with provable guarantees. However, current methods only apply to rather simple reports, like multiple-choice or scalar numbers. We aim to broaden these techniques to the larger domain of text-based reports, drawing on the recent developments in large language models. This vastly increases the applicability of peer prediction mechanisms as textual feedback is the norm in a large variety of feedback channels: peer reviews, e-commerce customer reviews, and comments on social media. We introduce two mechanisms, the Generative Peer Prediction Mechanism (GPPM) and the Generative Synopsis Peer Prediction Mechanism (GSPPM). These mechanisms utilize LLMs as predictors, mapping from one agent’s report to a prediction of her peer’s report. Theoretically, we show that when the LLM prediction is sufficiently accurate, our mechanisms can incentivize high effort and truth-telling as an (approximate) Bayesian Nash equilibrium. Empirically, we confirm the efficacy of our mechanisms through experiments conducted on two real datasets: the Yelp review dataset and the ICLR OpenReview dataset. We highlight the results that on the ICLR dataset, our mechanisms can differentiate three quality levels — human-written reviews, GPT-4-generated reviews, and GPT-3.5-generated reviews in terms of expected scores. Additionally, GSPPM penalizes LLM-generated reviews more effectively than GPPM.

arxiv情報

著者 Yuxuan Lu,Shengwei Xu,Yichi Zhang,Yuqing Kong,Grant Schoenebeck
発行日 2024-05-28 17:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GT パーマリンク