要約
インテリジェントマシンがタスクを完了するための能力をどのように評価できますか?
この質問は、不確実性の下でアルゴリズム的に決定を下す自律システムに焦点を当てています。
私たちは、機械の自信 – 世界の状態、それ自体、およびタスクを推論して実行する能力に関するシステム知識の自己評価に基づくメタリレイニングの形態は、そのようなエージェントの多くの計算可能で有用なコンピテンシー指標につながると主張します。
このペーパーでは、これまでのところ、この概念については、アルゴリズムの意思決定の能力を促進するいくつかの主要な要因を総合的に考慮しているこの概念について、この概念を示しています。
FAMSECでは、Markov Decision Process Solversおよび関連するアプローチに組み込まれた「問題解決統計」を介して自信指標が導き出されます。
これらの統計は、特定の結果と評価者によって指定された関連する能力基準に関連して、確率的超過マージンを評価することから得られます。
設計され、評価されると、統計は自律剤に簡単に組み込まれ、能力の指標として機能します。
マルコフ決定プロセスエージェントの詳細な説明と例を含め、メタ効率の機能、行動シミュレーション、およびサロゲート予測モデルの新しい使用を通じて、さまざまなタスクコンテキストに結果の評価とソルバーの品質要因がどのように見られるかを示します。
数値評価は、FAMSECインジケーターが必要に応じて実行されることを実証するために実行されます(この論文の範囲を超えた人間の被験者研究への参照が提供されます)。
要約(オリジナル)
How can intelligent machines assess their competency to complete a task? This question has come into focus for autonomous systems that algorithmically make decisions under uncertainty. We argue that machine self-confidence — a form of meta-reasoning based on self-assessments of system knowledge about the state of the world, itself, and ability to reason about and execute tasks — leads to many computable and useful competency indicators for such agents. This paper presents our body of work, so far, on this concept in the form of the Factorized Machine Self-confidence (FaMSeC) framework, which holistically considers several major factors driving competency in algorithmic decision-making: outcome assessment, solver quality, model quality, alignment quality, and past experience. In FaMSeC, self-confidence indicators are derived via ‘problem-solving statistics’ embedded in Markov decision process solvers and related approaches. These statistics come from evaluating probabilistic exceedance margins in relation to certain outcomes and associated competency standards specified by an evaluator. Once designed, and evaluated, the statistics can be easily incorporated into autonomous agents and serve as indicators of competency. We include detailed descriptions and examples for Markov decision process agents, and show how outcome assessment and solver quality factors can be found for a range of tasking contexts through novel use of meta-utility functions, behavior simulations, and surrogate prediction models. Numerical evaluations are performed to demonstrate that FaMSeC indicators perform as desired (references to human subject studies beyond the scope of this paper are provided).
arxiv情報
著者 | Brett W. Israelsen,Nisar R. Ahmed,Matthew Aitken,Eric W. Frew,Dale A. Lawrence,Brian M. Argrow |
発行日 | 2025-04-15 16:11:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google