‘A Good Bot Always Knows Its Limitations’: Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence

要約

知的機械は、タスクを完了する能力をどのように評価できるのだろうか?この疑問は、不確実性のもとでアルゴリズム的に推論し、意思決定を行う自律システムで注目されている。本稿では、機械の自信、すなわち、世界と自分自身に関するエージェントの知識、タスクを推論し実行する能力に関する自己評価に基づくメタ推論の一形態が、そのようなエージェントにとって、非常に計算可能で有用な多くの能力指標につながることを論じる。本論文では、FaMSeC(Factorized Machine Self-confidence)と呼ばれる計算フレームワークの形で、この概念に関する研究の集大成を示す。FaMSeCは、アルゴリズムによる意思決定プロセスを駆動する要因(結果評価、ソルバーの品質、モデルの品質、アライメントの品質、過去の経験など)について、工学に焦点を当てた全体的な記述を提供する。FaMSeCでは、マルコフ決定過程のような広範なクラスの確率論的意思決定アルゴリズムに組み込まれた階層的な「問題解決統計量」から、自己信頼性指標が導出される。問題解決統計量は、情報提供者(例えば、非専門家ユーザーやエキスパートシステム設計者)が様々な意思決定能力要素ごとに指定した、与えられた能力基準に関する確率的超過マージンを評価し、評定することによって得られる。このアプローチにより、「アルゴリズムによる適合度」評価を、人間が解釈可能な能力自己評価レポートの形で、多くの種類の自律エージェントの設計に容易に組み込むことができる。マルコフ意思決定プロセスエージェントの詳細な説明と応用例では、メタ効用関数、行動シミュレーション、代理予測モデルを新規に使用することにより、FaMSeC因子の2つ(結果評価とソルバーの品質)をどのように計算し、様々な可能性のあるタスクのコンテキストに対して報告できるかを示す。

要約(オリジナル)

How can intelligent machines assess their competencies in completing tasks? This question has come into focus for autonomous systems that algorithmically reason and make decisions under uncertainty. It is argued here that machine self-confidence – a form of meta-reasoning based on self-assessments of an agent’s knowledge about the state of the world and itself, as well as its ability to reason about and execute tasks – leads to many eminently computable and useful competency indicators for such agents. This paper presents a culmination of work on this concept in the form of a computational framework called Factorized Machine Self-confidence (FaMSeC), which provides a holistic engineering-focused description of factors driving an algorithmic decision-making process, including: outcome assessment, solver quality, model quality, alignment quality, and past experience. In FaMSeC, self confidence indicators are derived from hierarchical `problem-solving statistics’ embedded within broad classes of probabilistic decision-making algorithms such as Markov decision processes. The problem-solving statistics are obtained by evaluating and grading probabilistic exceedance margins with respect to given competency standards, which are specified for each of the various decision-making competency factors by the informee (e.g. a non-expert user or an expert system designer). This approach allows `algorithmic goodness of fit’ evaluations to be easily incorporated into the design of many kinds of autonomous agents in the form of human-interpretable competency self-assessment reports. Detailed descriptions and application examples for a Markov decision process agent show how two of the FaMSeC factors (outcome assessment and solver quality) can be computed and reported for a range of possible tasking contexts through novel use of meta-utility functions, behavior simulations, and surrogate prediction models.

arxiv情報

著者 Brett Israelsen,Nisar R. Ahmed,Matthew Aitken,Eric W. Frew,Dale A. Lawrence,Brian M. Argrow
発行日 2024-08-02 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG, cs.RO パーマリンク