Adversarial Attacks to Reward Machine-based Reinforcement Learning

要約

近年、報酬マシン (RM) は、強化学習設定でタスク構造を公開して活用するための、シンプルかつ効果的なオートマトンベースの形式主義として注目を集めています。
それらの関連性にもかかわらず、セキュリティへの影響や敵対的なシナリオに対する堅牢性の研究には、おそらく最近文献に登場したため、ほとんど注目されていません。
私の論文では、RM ベースの強化学習技術のセキュリティに関する最初の分析を提供することを目的としており、この分野でのさらなる研究を動機付けることを期待しています。また、RM ベースの技術に対する新しい種類の攻撃であるブラインディングを提案して評価します。
攻撃します。

要約(オリジナル)

In recent years, Reward Machines (RMs) have stood out as a simple yet effective automata-based formalism for exposing and exploiting task structure in reinforcement learning settings. Despite their relevance, little to no attention has been directed to the study of their security implications and robustness to adversarial scenarios, likely due to their recent appearance in the literature. With my thesis, I aim to provide the first analysis of the security of RM-based reinforcement learning techniques, with the hope of motivating further research in the field, and I propose and evaluate a novel class of attacks on RM-based techniques: blinding attacks.

arxiv情報

著者 Lorenzo Nodari
発行日 2023-11-15 14:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク