HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits

要約

ベンチマークは、機械学習の進歩を促進するために不可欠でした。
安全な開発には、現実世界のタスクにおける LLM 機能をより深く理解することが不可欠です。
適切な LLM ベンチマークの設計は困難です。実際のタスクからのデータは収集が難しく、静的な評価データが公開されるとテスト データの汚染やベンチマークのオーバーフィッティングが発生し、新しい評価データを定期的に生成するのは面倒で、結果が一時的に不一致になる可能性があります。
HelloFresh は、内発的に動機付けられた人間のラベル付け担当者によって生成された現実世界のデータの継続的なストリームに基づいています。
X (旧 Twitter) コミュニティ ノートや Wikipedia ページの編集からの最近のイベントをカバーし、テスト データの汚染やベンチマークの過剰適合のリスクを軽減します。
X ユーザーは誰でも、誤解を招く投稿 (以前のツイート) に追加のコンテキストを追加する X メモを提案できます。
コミュニティが役立つと分類した場合は、投稿とともに表示されます。
同様に、Wikipedia はコミュニティベースの合意に依存しており、ユーザーが記事を編集したり、他のユーザーが行った編集を元に戻したりすることができます。
X メモが役立つかどうか、または Wikipedia の編集を受け入れる必要があるかどうかを検証するのは、Web にクエリを実行して根拠を示す必要がある難しい作業です。
シンプルな Web 検索アクセスを追加した最先端の LLM をバックテストしたところ、HelloFresh が時間的に一貫したランキングを生成することがわかりました。
HelloFresh での継続的な評価を可能にするために、https://tinyurl.com/hello-fresh-LLM で公開リーダーボードと定期的に更新される評価データをホストしています。

要約(オリジナル)

Benchmarks have been essential for driving progress in machine learning. A better understanding of LLM capabilities on real world tasks is vital for safe development. Designing adequate LLM benchmarks is challenging: Data from real-world tasks is hard to collect, public availability of static evaluation data results in test data contamination and benchmark overfitting, and periodically generating new evaluation data is tedious and may result in temporally inconsistent results. We introduce HelloFresh, based on continuous streams of real-world data generated by intrinsically motivated human labelers. It covers recent events from X (formerly Twitter) community notes and edits of Wikipedia pages, mitigating the risk of test data contamination and benchmark overfitting. Any X user can propose an X note to add additional context to a misleading post (formerly tweet); if the community classifies it as helpful, it is shown with the post. Similarly, Wikipedia relies on community-based consensus, allowing users to edit articles or revert edits made by other users. Verifying whether an X note is helpful or whether a Wikipedia edit should be accepted are hard tasks that require grounding by querying the web. We backtest state-of-the-art LLMs supplemented with simple web search access and find that HelloFresh yields a temporally consistent ranking. To enable continuous evaluation on HelloFresh, we host a public leaderboard and periodically updated evaluation data at https://tinyurl.com/hello-fresh-LLM.

arxiv情報

著者 Tim Franzmeyer,Aleksandar Shtedritski,Samuel Albanie,Philip Torr,João F. Henriques,Jakob N. Foerster
発行日 2024-06-05 16:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク