Paradigms of AI Evaluation: Mapping Goals, Methodologies and Culture

要約

AI評価の研究により、ますます複雑で学際的になり、さまざまな背景と目的を持つ研究者を引き付けました。
その結果、発散的な評価パラダイムが出現し、しばしば単独で発展し、対立する用語を採用し、お互いの貢献を見落としています。
この断片化は、異なるパラダイムと一般大衆の両方で島の研究の軌跡とコミュニケーションの障壁をもたらし、展開されたAIシステムに対する満たされていない期待に貢献しています。
この孤立性を橋渡しするために、この論文では、AI評価環境での最近の研究を調査し、6つの主要なパラダイムを特定します。
私たちは、目標、方法論、および研究文化に関連する重要な次元にわたる各パラダイム内の主要な最近の貢献を特徴づけています。
各パラダイムに関連する質問とアプローチのユニークな組み合わせを明確にすることにより、現在の評価アプローチの幅に対する認識を高め、異なるパラダイム間の相互殺害を促進することを目指しています。
また、将来の研究の方向性を刺激するために、フィールドの潜在的なギャップを特定します。

要約(オリジナル)

Research in AI evaluation has grown increasingly complex and multidisciplinary, attracting researchers with diverse backgrounds and objectives. As a result, divergent evaluation paradigms have emerged, often developing in isolation, adopting conflicting terminologies, and overlooking each other’s contributions. This fragmentation has led to insular research trajectories and communication barriers both among different paradigms and with the general public, contributing to unmet expectations for deployed AI systems. To help bridge this insularity, in this paper we survey recent work in the AI evaluation landscape and identify six main paradigms. We characterise major recent contributions within each paradigm across key dimensions related to their goals, methodologies and research cultures. By clarifying the unique combination of questions and approaches associated with each paradigm, we aim to increase awareness of the breadth of current evaluation approaches and foster cross-pollination between different paradigms. We also identify potential gaps in the field to inspire future research directions.

arxiv情報

著者 John Burden,Marko Tešić,Lorenzo Pacchiardi,José Hernández-Orallo
発行日 2025-02-21 17:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク