要約
強化学習システムでは、ノイズに対する堅牢性が最も重要であり、特に一か八かの賭けと不確実な環境が蔓延する軍事的状況においては最も重要です。
騒音と不確実性は軍事作戦に固有の特徴であり、不完全な情報、敵対者の行動、予測不可能な戦場状況などの要因から発生します。
RL では、騒音は意思決定、ミッションの成功、職員の安全に重大な影響を与える可能性があります。
報酬マシンは、RL タスクで複雑な報酬構造を表現するための強力なツールを提供し、ミッションの目的に合わせた調整された強化信号の設計を可能にします。
この論文では、報酬マシンに基づく知能駆動型強化学習の堅牢性の問題を検討します。
提示された予備的な結果は、ミッションクリティカルに対応する前に、現在の最先端の強化学習アプローチを強化するための証拠推論と学習についてさらなる研究が必要であることを示唆しています。
要約(オリジナル)
Robustness to noise is of utmost importance in reinforcement learning systems, particularly in military contexts where high stakes and uncertain environments prevail. Noise and uncertainty are inherent features of military operations, arising from factors such as incomplete information, adversarial actions, or unpredictable battlefield conditions. In RL, noise can critically impact decision-making, mission success, and the safety of personnel. Reward machines offer a powerful tool to express complex reward structures in RL tasks, enabling the design of tailored reinforcement signals that align with mission objectives. This paper considers the problem of the robustness of intelligence-driven reinforcement learning based on reward machines. The preliminary results presented suggest the need for further research in evidential reasoning and learning to harden current state-of-the-art reinforcement learning approaches before being mission-critical-ready.
arxiv情報
著者 | Lorenzo Nodari,Federico Cerutti |
発行日 | 2023-11-15 15:15:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google