要約
AIを活用した能力は、実世界で展開するのに必要な成熟度に達しているが、常に正しい、あるいは安全な判断を下すとは限らない。このような懸念に対処する1つの方法は、AI制御システムを人間の意思決定と並行して活用し、人間の意思決定を支援することである。我々は、敵対的説明(AE)のための方法論を、MuZeroを含む最先端の強化学習フレームワークに拡張する。ベースとなるエージェントアーキテクチャに対する複数の改良を提案する。我々は、この技術がいかに2つのアプリケーションを持つかを示す:知的意思決定ツールと、訓練/学習フレームワークの強化である。意思決定支援の文脈では、敵対的説明は、AIが推奨する別の意思決定を行うために変更する必要がある文脈上の要因を強調することにより、ユーザが正しい意思決定を行うのを助ける。敵対的説明のもう一つの利点として、学習されたAI制御システムが敵対的改ざんに対して頑健であることを示す。さらに、戦略的に類似したオートエンコーダ(SSA)を導入することで、AEを補完し、ユーザーがAIシステムによって考慮されるすべての顕著な要因を識別し、理解できるようにする。訓練/学習のフレームワークでは、この技術によってAIの意思決定と人間との対話による説明の両方を改善することができる。最後に、AIによる意思決定が人間の監視から最も恩恵を受けるタイミングを特定するため、この複合システムを、あらゆる時点での意思決定の重要性を統計的に検証した分析に関する先行技術と結びつける。
要約(オリジナル)
AI-enabled capabilities are reaching the requisite level of maturity to be deployed in the real world, yet do not always make correct or safe decisions. One way of addressing these concerns is to leverage AI control systems alongside and in support of human decisions, relying on the AI control system in safe situations while calling on a human co-decider for critical situations. We extend a methodology for adversarial explanations (AE) to state-of-the-art reinforcement learning frameworks, including MuZero. Multiple improvements to the base agent architecture are proposed. We demonstrate how this technology has two applications: for intelligent decision tools and to enhance training / learning frameworks. In a decision support context, adversarial explanations help a user make the correct decision by highlighting those contextual factors that would need to change for a different AI-recommended decision. As another benefit of adversarial explanations, we show that the learned AI control system demonstrates robustness against adversarial tampering. Additionally, we supplement AE by introducing strategically similar autoencoders (SSAs) to help users identify and understand all salient factors being considered by the AI system. In a training / learning framework, this technology can improve both the AI’s decisions and explanations through human interaction. Finally, to identify when AI decisions would most benefit from human oversight, we tie this combined system to our prior art on statistically verified analyses of the criticality of decisions at any point in time.
arxiv情報
著者 | Walt Woods,Alexander Grushin,Simon Khan,Alvaro Velasquez |
発行日 | 2024-07-03 15:38:57+00:00 |
arxivサイト | arxiv_id(pdf) |