要約
文化的な AI ベンチマークは、測定された構成要素に関する暗黙の仮定に依存することが多く、妥当性が低く相互関係が不明確な曖昧な定式化につながります。
私たちは、構造方程式モデルとして定式化された明示的な認知モデルを使用して、これらの仮定を明らかにすることを提案します。
例として、言語を越えたアライメントの転送を使用して、このアプローチがどのように主要な研究の疑問に答え、欠落しているデータセットを特定できるかを示します。
このフレームワークはベンチマーク構築を理論的に根拠づけ、構築測定を改善するためのデータセット開発を導きます。
透明性を採用することで、私たちはより厳密で累積的な AI 評価科学を目指し、研究者に評価の基礎を批判的に検証するよう求めています。
要約(オリジナル)
Cultural AI benchmarks often rely on implicit assumptions about measured constructs, leading to vague formulations with poor validity and unclear interrelations. We propose exposing these assumptions using explicit cognitive models formulated as Structural Equation Models. Using cross-lingual alignment transfer as an example, we show how this approach can answer key research questions and identify missing datasets. This framework grounds benchmark construction theoretically and guides dataset development to improve construct measurement. By embracing transparency, we move towards more rigorous, cumulative AI evaluation science, challenging researchers to critically examine their assessment foundations.
arxiv情報
著者 | Jonathan H. Rystrøm,Kenneth C. Enevoldsen |
発行日 | 2024-09-25 11:55:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google