要約
人間の判断ではなく、LLM が生成した判断を使用して NLP モデルを評価する傾向が高まっています。
人間のデータとの比較がないため、これらの評価の妥当性について懸念が生じます。
独自のモデルを使用して実施される場合、再現性に関する懸念も生じます。
私たちは、人間によるアノテーションを備えた 20 の NLP データセットのコレクションである JUDGE-BENCH を提供し、オープンウェイト モデルと独自モデルの両方をカバーする 11 の現在の LLM を、アノテーションを複製する能力について包括的に評価します。
私たちの評価では、各 LLM は人間の判断との相関関係においてデータセット間で大きな差異を示していることが示されています。
私たちは、LLM が NLP において人間の裁判官を組織的に置き換える準備がまだ整っていないと結論付けています。
要約(オリジナル)
There is an increasing trend towards evaluating NLP models with LLM-generated judgments instead of human judgments. In the absence of a comparison against human data, this raises concerns about the validity of these evaluations; in case they are conducted with proprietary models, this also raises concerns over reproducibility. We provide JUDGE-BENCH, a collection of 20 NLP datasets with human annotations, and comprehensively evaluate 11 current LLMs, covering both open-weight and proprietary models, for their ability to replicate the annotations. Our evaluations show that each LLM exhibits a large variance across datasets in its correlation to human judgments. We conclude that LLMs are not yet ready to systematically replace human judges in NLP.
arxiv情報
著者 | Anna Bavaresco,Raffaella Bernardi,Leonardo Bertolazzi,Desmond Elliott,Raquel Fernández,Albert Gatt,Esam Ghaleb,Mario Giulianelli,Michael Hanna,Alexander Koller,André F. T. Martins,Philipp Mondorf,Vera Neplenbroek,Sandro Pezzelle,Barbara Plank,David Schlangen,Alessandro Suglia,Aditya K Surikuchi,Ece Takmaz,Alberto Testoni |
発行日 | 2024-06-26 14:56:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google