Evaluating General-Purpose AI with Psychometrics

要約

大規模な言語モデルなどの汎用 AI システムを包括的かつ正確に評価することで、リスクを効果的に軽減し、その機能について理解を深めることができます。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用性の高い AI システムを適切に評価するには至っていません。現在の技術には、予期せぬタスクでのパフォーマンスを予測し、特定のタスク項目やユーザー入力でのパフォーマンスの変化を説明するための科学的基盤が欠けているためです。
さらに、特定のタスクの既存のベンチマークは、その信頼性と有効性についての懸念を増大させています。
これらの課題に取り組むために、タスク指向の評価から構成指向の評価に移行することをお勧めします。
心理測定学であるサイコメトリクスは、複数のタスクにわたるパフォーマンスの根底にある潜在的な構造を特定し、測定するための厳密な方法論を提供します。
私たちはそのメリットについて議論し、潜在的な落とし穴について警告し、それを実践するためのフレームワークを提案します。
最後に、心理測定と汎用 AI システムの評価を統合する将来の可能性を探ります。

要約(オリジナル)

Comprehensive and accurate evaluation of general-purpose AI systems such as large language models allows for effective mitigation of their risks and deepened understanding of their capabilities. Current evaluation methodology, mostly based on benchmarks of specific tasks, falls short of adequately assessing these versatile AI systems, as present techniques lack a scientific foundation for predicting their performance on unforeseen tasks and explaining their varying performance on specific task items or user inputs. Moreover, existing benchmarks of specific tasks raise growing concerns about their reliability and validity. To tackle these challenges, we suggest transitioning from task-oriented evaluation to construct-oriented evaluation. Psychometrics, the science of psychological measurement, provides a rigorous methodology for identifying and measuring the latent constructs that underlie performance across multiple tasks. We discuss its merits, warn against potential pitfalls, and propose a framework to put it into practice. Finally, we explore future opportunities of integrating psychometrics with the evaluation of general-purpose AI systems.

arxiv情報

著者 Xiting Wang,Liming Jiang,Jose Hernandez-Orallo,David Stillwell,Luning Sun,Fang Luo,Xing Xie
発行日 2023-12-29 05:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク