Inferring Capabilities from Task Performance with Bayesian Triangulation

要約

機械学習モデルがより一般的になるにつれて、より豊かで意味のある方法でそれらを特徴付ける必要があります。
多様な実験データからシステムの認知プロファイルを推測する方法について説明します。
そのために、タスク インスタンスの機能がシステム機能とどのように相互作用してパフォーマンスに影響を与えるかをモデル化する測定レイアウトを導入します。
非母集団データから機能を推測できるようにするには、これらの特徴を複雑な方法で三角測量する必要があります。これは、従来の心理測定ツールや推論ツールにとっての課題です。
ベイジアン確率的プログラミング ライブラリ PyMC を使用して、AnimalAI オリンピックの実際の出場者 68 名と、オブジェクト永続バッテリーである O-PIAAGETS の合成エージェント 30 名の 2 つのシナリオで、エージェントのさまざまな認知プロファイルを推測します。
私たちは能力指向の評価の可能性を示します。

要約(オリジナル)

As machine learning models become more general, we need to characterise them in richer, more meaningful ways. We describe a method to infer the cognitive profile of a system from diverse experimental data. To do so, we introduce measurement layouts that model how task-instance features interact with system capabilities to affect performance. These features must be triangulated in complex ways to be able to infer capabilities from non-populational data — a challenge for traditional psychometric and inferential tools. Using the Bayesian probabilistic programming library PyMC, we infer different cognitive profiles for agents in two scenarios: 68 actual contestants in the AnimalAI Olympics and 30 synthetic agents for O-PIAAGETS, an object permanence battery. We showcase the potential for capability-oriented evaluation.

arxiv情報

著者 John Burden,Konstantinos Voudouris,Ryan Burnell,Danaja Rutar,Lucy Cheke,José Hernández-Orallo
発行日 2023-09-21 11:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク