要約
このポジションペーパーでは、従来のML評価とベンチマーク戦略が最新のGenaiモデルとシステムを評価するニーズを満たすには不十分であるため、生成AIの経験的評価は危機的な時点にあることを観察します。
これには、これらのモデルには通常、ほとんど固定されていない入力スペースと出力スペースがほとんどなく、通常は明確に定義されたグラウンドトゥルースターゲットがないという事実など、多くの理由があり、通常、以前のモデル出力のコンテキストに基づいて強いフィードバックループと予測依存性を示します。
これらの重要な問題に加えて、{\ em Leakage}と{\ em contamination}の問題は、実際にはGenai評価のために対処するのが最も重要で困難な問題であると主張します。
興味深いことに、AI競技の分野は、競争環境内の悪い俳優による不正行為に対抗する目的で、漏れと戦うための効果的な措置と実践を開発しました。
これにより、AI競争は特に貴重な(しかし十分に活用されていない)リソースになります。
今こそ、この分野では、AI競争をgenai評価における経験的厳密さのゴールドスタンダードと見なし、価値に応じて結果を活用して収穫する時です。
要約(オリジナル)
In this position paper, we observe that empirical evaluation in Generative AI is at a crisis point since traditional ML evaluation and benchmarking strategies are insufficient to meet the needs of evaluating modern GenAI models and systems. There are many reasons for this, including the fact that these models typically have nearly unbounded input and output spaces, typically do not have a well defined ground truth target, and typically exhibit strong feedback loops and prediction dependence based on context of previous model outputs. On top of these critical issues, we argue that the problems of {\em leakage} and {\em contamination} are in fact the most important and difficult issues to address for GenAI evaluations. Interestingly, the field of AI Competitions has developed effective measures and practices to combat leakage for the purpose of counteracting cheating by bad actors within a competition setting. This makes AI Competitions an especially valuable (but underutilized) resource. Now is time for the field to view AI Competitions as the gold standard for empirical rigor in GenAI evaluation, and to harness and harvest their results with according value.
arxiv情報
著者 | D. Sculley,Will Cukierski,Phil Culliton,Sohier Dane,Maggie Demkin,Ryan Holbrook,Addison Howard,Paul Mooney,Walter Reade,Megan Risdal,Nate Keating |
発行日 | 2025-05-01 15:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google