Worrisome Properties of Neural Network Controllers and Their Symbolic Representations

要約

私たちは、単純な強化学習ベンチマーク問題におけるコントローラーの堅牢性について懸念を提起します。
私たちは、ニューラル ネットワーク コントローラーとその低位ニューロンおよびシンボリック抽象化に焦点を当てます。
高い平均戻り値に達する一般的なコントローラーは、依然として永続的な低リターンのソリューションを大量に生成しますが、これは非常に望ましくない特性であり、攻撃者によって容易に悪用されます。
コントローラーが単純であればあるほど、より永続的な悪い解決策が許容されることがわかりました。
私たちは体系的な堅牢性研究のためのアルゴリズムを提供し、コンピューター支援の証明方法論を使用して永続的な解の存在、場合によっては周期的軌道の存在を証明します。

要約(オリジナル)

We raise concerns about controllers’ robustness in simple reinforcement learning benchmark problems. We focus on neural network controllers and their low neuron and symbolic abstractions. A typical controller reaching high mean return values still generates an abundance of persistent low-return solutions, which is a highly undesirable property, easily exploitable by an adversary. We find that the simpler controllers admit more persistent bad solutions. We provide an algorithm for a systematic robustness study and prove existence of persistent solutions and, in some cases, periodic orbits, using a computer-assisted proof methodology.

arxiv情報

著者 Jacek Cyranka,Kevin E M Church,Jean-Philippe Lessard
発行日 2023-07-28 10:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS, math.OC パーマリンク