Pseudointelligence: A Unifying Framework for Language Model Evaluation

要約

大規模な言語モデルが人間のパフォーマンスを超えるベンチマークが増えているため、モデルの機能を対象を絞って評価するには原則に基づいたアプローチを採用する必要があります。
擬似ランダム性に触発されて、私たちは「(知覚された)知性は見る人の目にある」という格言を捉えた擬似知性を提案します。
つまり、知性に関する主張は、その評価者が考慮に入れられた場合にのみ意味を持ちます。
具体的には、モデルと学習された評価器の間の動的な相互作用としてモデル評価の複雑性理論的フレームワークを提案します。
このフレームワークを使用して、言語モデル評価における 2 つのケーススタディを推論し、既存の評価方法を分析できることを示します。

要約(オリジナル)

With large language models surpassing human performance on an increasing number of benchmarks, we must take a principled approach for targeted evaluation of model capabilities. Inspired by pseudorandomness, we propose pseudointelligence, which captures the maxim that ‘(perceived) intelligence lies in the eye of the beholder’. That is, that claims of intelligence are meaningful only when their evaluator is taken into account. Concretely, we propose a complexity-theoretic framework of model evaluation cast as a dynamic interaction between a model and a learned evaluator. We demonstrate that this framework can be used to reason about two case studies in language model evaluation, as well as analyze existing evaluation methods.

arxiv情報

著者 Shikhar Murty,Orr Paradise,Pratyusha Sharma
発行日 2023-10-18 17:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク