BRNES: Enabling Security and Privacy-aware Experience Sharing in Multiagent Robotic and Autonomous Systems

要約

経験共有 (ES) はアドバイザーとアドバイスのフレームワークにおけるマルチエージェント強化学習 (MARL) を加速しますが、ES を分散型マルチエージェント システムに適用する試みは、これまで信頼できる環境に依存しており、敵対的な操作や推論の可能性が見落とされてきました。
それにもかかわらず、現実の環境では、アドバイザーを装った一部のビザンチン攻撃者が、アドバイスを受ける人に誤ったアドバイスを提供し、全体的な学習パフォーマンスを壊滅的に低下させる可能性があります。
また、アドバイス対象者を装った推論攻撃者がいくつかのクエリを実行してアドバイザーの個人情報を推測し、プライバシー漏洩の観点から ES プロセス全体を疑わしいものにする可能性があります。
これらの問題に対処するために、我々は、各学習ステップで各アドバイザの動的な隣接ゾーンをヒューリスティックに選択し、重み付きエクスペリエンス集約手法を採用してビザンチン攻撃の影響を軽減する新しい MARL フレームワーク (BRNES) を提案します。
さらに、エージェントの個人情報を敵対的推論攻撃から安全に保つために、ES プロセス中にローカル差分プライバシー (LDP) によって引き起こされるノイズを利用します。
私たちの実験では、目標までのステップ、獲得した報酬、目標までの時間の指標の点で、私たちのフレームワークが最先端のフレームワークを上回っていることが示されています。
特に、私たちの評価では、提案されたフレームワークは現在の非プライベート フレームワークより 8.32 倍高速であり、敵対的設定ではプライベート フレームワークより 1.41 倍高速であることが示されています。

要約(オリジナル)

Although experience sharing (ES) accelerates multiagent reinforcement learning (MARL) in an advisor-advisee framework, attempts to apply ES to decentralized multiagent systems have so far relied on trusted environments and overlooked the possibility of adversarial manipulation and inference. Nevertheless, in a real-world setting, some Byzantine attackers, disguised as advisors, may provide false advice to the advisee and catastrophically degrade the overall learning performance. Also, an inference attacker, disguised as an advisee, may conduct several queries to infer the advisors’ private information and make the entire ES process questionable in terms of privacy leakage. To address and tackle these issues, we propose a novel MARL framework (BRNES) that heuristically selects a dynamic neighbor zone for each advisee at each learning step and adopts a weighted experience aggregation technique to reduce Byzantine attack impact. Furthermore, to keep the agent’s private information safe from adversarial inference attacks, we leverage the local differential privacy (LDP)-induced noise during the ES process. Our experiments show that our framework outperforms the state-of-the-art in terms of the steps to goal, obtained reward, and time to goal metrics. Particularly, our evaluation shows that the proposed framework is 8.32x faster than the current non-private frameworks and 1.41x faster than the private frameworks in an adversarial setting.

arxiv情報

著者 Md Tamjid Hossain,Hung Manh La,Shahriar Badsha,Anton Netchaev
発行日 2023-08-02 16:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MA, cs.RO パーマリンク