What is it for a Machine Learning Model to Have a Capability?

要約

最新の機械学習 (ML) モデルでは何ができるのでしょうか?
社会で ML モデルが急増していることを考えると、この質問に答えることは、官民を問わずさまざまな関係者にとって重要です。
モデルの機能の評価は、規制当局の注目と政府の助成金によって後押しされ、現代の ML の重要なサブフィールドとして急速に浮上しています。
それにもかかわらず、ML モデルが機能を備えているという概念は疑問視されていません。モデルが何かを実行できると言うとき、私たちは何を言っているのでしょうか?
そして、この疑問を裏付ける証拠は何でしょうか?
このペーパーでは、実行例として大規模言語モデル (LLM) の機能を使用して、これらの質問に答えることを目的としています。
能力に関する膨大な哲学文献を利用して、モデル評価の初期科学に有効に適用できる ML モデルの能力の説明を作成します。
私たちの中心的な提案は、モデル能力の条件付き分析 (CAMA) です。大まかに言えば、機械学習モデルは、「試行」すれば X の実行に確実に成功するときに X を行う能力を持っています。
この論文の主な貢献は、ML のコンテキストにおいてこの提案を正確にし、その結果 LLM に適用できる CAMA の運用化につながることです。
次に、CAMA を機能させて、CAMA が ML モデル評価実践のさまざまな特徴を理解するのに役立つことを示し、公正なモデル間比較を実行するための手順を提案します。

要約(オリジナル)

What can contemporary machine learning (ML) models do? Given the proliferation of ML models in society, answering this question matters to a variety of stakeholders, both public and private. The evaluation of models’ capabilities is rapidly emerging as a key subfield of modern ML, buoyed by regulatory attention and government grants. Despite this, the notion of an ML model possessing a capability has not been interrogated: what are we saying when we say that a model is able to do something? And what sorts of evidence bear upon this question? In this paper, we aim to answer these questions, using the capabilities of large language models (LLMs) as a running example. Drawing on the large philosophical literature on abilities, we develop an account of ML models’ capabilities which can be usefully applied to the nascent science of model evaluation. Our core proposal is a conditional analysis of model abilities (CAMA): crudely, a machine learning model has a capability to X just when it would reliably succeed at doing X if it ‘tried’. The main contribution of the paper is making this proposal precise in the context of ML, resulting in an operationalisation of CAMA applicable to LLMs. We then put CAMA to work, showing that it can help make sense of various features of ML model evaluation practice, as well as suggest procedures for performing fair inter-model comparisons.

arxiv情報

著者 Jacqueline Harding,Nathaniel Sharadin
発行日 2024-05-14 23:03:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク