‘A Good Bot Always Knows Its Limitations’: Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence

要約

インテリジェントマシンは、タスクを完了する能力をどのように評価できるのでしょうか?
この問題は、不確実性の下でアルゴリズム的に推論して意思決定を行う自律システムにとって焦点となっています。
ここでは、マシンの自信、つまり世界とそれ自体の状態に関するエージェントの知識、およびタスクを推論して実行する能力の自己評価に基づくメタ推論の一形態が、次のような結果につながると主張されています。
そのようなエージェントにとって、計算可能で有用な能力指標が数多くあります。
この論文は、この概念に関する研究の集大成を、因数分解機械自信 (FaMSeC) と呼ばれる計算フレームワークの形で提示します。これは、結果の評価、ソルバーを含む、アルゴリズムによる意思決定プロセスを推進する要因のエンジニアリングに焦点を当てた全体的な記述を提供します。
品質、モデルの品質、アライメントの品質、および過去の経験。
FaMSeC では、自信指標は、マルコフ決定プロセスなどの確率的意思決定アルゴリズムの広範なクラスに組み込まれた階層的な「問題解決統計」から導出されます。
問題解決統計は、与えられたコンピテンシー標準に関して確率的超過マージンを評価および格付けすることによって取得されます。コンピテンシー標準は、情報提供者 (たとえば、専門家ではないユーザーまたは専門家システム設計者) によって意思決定能力要素ごとに指定されます。
このアプローチにより、人間が解釈可能なコンピテンシー自己評価レポートを介して、「アルゴリズムの適合度」評価をさまざまな種類の自律エージェントの設計に簡単に組み込むことができます。
マルコフ意思決定プロセス エージェントの詳細な説明と実行中のアプリケーション例は、メタユーティリティ関数、動作シミュレーション、および
サロゲート予測モデル。

要約(オリジナル)

How can intelligent machines assess their competencies in completing tasks? This question has come into focus for autonomous systems that algorithmically reason and make decisions under uncertainty. It is argued here that machine self-confidence — a form of meta-reasoning based on self-assessments of an agent’s knowledge about the state of the world and itself, as well as its ability to reason about and execute tasks — leads to many eminently computable and useful competency indicators for such agents. This paper presents a culmination of work on this concept in the form of a computational framework called Factorized Machine Self-confidence (FaMSeC), which provides an engineering-focused holistic description of factors driving an algorithmic decision-making process, including outcome assessment, solver quality, model quality, alignment quality, and past experience. In FaMSeC, self-confidence indicators are derived from hierarchical `problem-solving statistics’ embedded within broad classes of probabilistic decision-making algorithms such as Markov decision processes. The problem-solving statistics are obtained by evaluating and grading probabilistic exceedance margins with respect to given competency standards, which are specified for each decision-making competency factor by the informee (e.g. a non-expert user or an expert system designer). This approach allows `algorithmic goodness of fit’ evaluations to be easily incorporated into the design of many kinds of autonomous agents via human-interpretable competency self-assessment reports. Detailed descriptions and running application examples for a Markov decision process agent show how two FaMSeC factors (outcome assessment and solver quality) can be practically computed and reported for a range of possible tasking contexts through novel use of meta-utility functions, behavior simulations, and surrogate prediction models.

arxiv情報

著者 Brett Israelsen,Nisar R. Ahmed,Matthew Aitken,Eric W. Frew,Dale A. Lawrence,Brian M. Argrow
発行日 2024-07-29 01:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG, cs.RO パーマリンク