A Decentralized Spike-based Learning Framework for Sequential Capture in Discrete Perimeter Defense Problem

要約

この論文では、離散境界防御問題 (d-PDP) に対する新しい分散スパイクベース学習 (DSL) フレームワークを提案します。
半径方向に進入する侵入者から円形の領域を守るために、防衛チームが境界線で活動しています。
まず、d-PDP は時空間マルチタスク割り当て問題 (STMTA) として定式化されます。
次に、STMTA の問題は、境界を保護するために防御側が訪問する必要があるセグメントのラベルを取得するために、マルチラベル学習問題に変換されます。
DSL フレームワークは、決定論的なマルチラベル学習のために、Synaptic Efficacy Function spiking neuRON (MLC-SEFRON) ネットワークを使用したマルチラベル分類器を使用します。
各防御側には単一の MLC-SEFRON ネットワークが含まれています。
各 MLC-SEFRON ネットワークは、分散運用のために独自の観点からの入力を使用して独立してトレーニングされます。
MLC-SEFRON ネットワークへの入力スパイクは、追加の前処理ステップなしで、防御者と侵入者の時空間情報から直接取得できます。
MLC-SEFRON の出力には、防御側が境界を保護するために訪問する必要があるセグメントのラベルが含まれています。
MLC-SEFRON からのマルチラベル出力に基づいて、侵入者を捕捉するために、コンセンサスベースのバンドル アルゴリズム (CBBA) を使用して防御側の軌道が生成されます。
MLC-SEFRON をトレーニングするためのターゲット マルチラベル出力は、エキスパート ポリシーから取得されます。
また、防御者用にトレーニングされた MLC-SEFRON は、再トレーニングすることなく、別の防御者に割り当てられたセグメントのラベルを取得するために直接使用できます。
MLC-SEFRON のパフォーマンスは、防御側の完全な観察シナリオと部分的な観察シナリオに対して評価されています。
次に、DSL フレームワークの全体的なパフォーマンスが、他の既存の学習アルゴリズムとともにエキスパート ポリシーと比較されます。
DSL のスケーラビリティは、増加する防御側を使用して評価されています。

要約(オリジナル)

This paper proposes a novel Decentralized Spike-based Learning (DSL) framework for the discrete Perimeter Defense Problem (d-PDP). A team of defenders is operating on the perimeter to protect the circular territory from radially incoming intruders. At first, the d-PDP is formulated as a spatio-temporal multi-task assignment problem (STMTA). The problem of STMTA is then converted into a multi-label learning problem to obtain labels of segments that defenders have to visit in order to protect the perimeter. The DSL framework uses a Multi-Label Classifier using Synaptic Efficacy Function spiking neuRON (MLC-SEFRON) network for deterministic multi-label learning. Each defender contains a single MLC-SEFRON network. Each MLC-SEFRON network is trained independently using input from its own perspective for decentralized operations. The input spikes to the MLC-SEFRON network can be directly obtained from the spatio-temporal information of defenders and intruders without any extra pre-processing step. The output of MLC-SEFRON contains the labels of segments that a defender has to visit in order to protect the perimeter. Based on the multi-label output from the MLC-SEFRON a trajectory is generated for a defender using a Consensus-Based Bundle Algorithm (CBBA) in order to capture the intruders. The target multi-label output for training MLC-SEFRON is obtained from an expert policy. Also, the MLC-SEFRON trained for a defender can be directly used for obtaining labels of segments assigned to another defender without any retraining. The performance of MLC-SEFRON has been evaluated for full observation and partial observation scenarios of the defender. The overall performance of the DSL framework is then compared with expert policy along with other existing learning algorithms. The scalability of the DSL has been evaluated using an increasing number of defenders.

arxiv情報

著者 Mohammed Thousif,Shridhar Velhal,Suresh Sundaram,Shirin Dora
発行日 2023-05-26 08:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.NE, cs.RO, cs.SY, eess.SY パーマリンク