System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning

要約

進化科学は、多様性が自然システムに回復力を与えるという証拠を提供しています。
しかし、従来のマルチエージェント強化学習手法は、トレーニング サンプルの効率を高めるために均一性を強制するのが一般的です。
学習エージェントのシステムが同種のポリシーに制約されていない場合、個人は多様な行動を発達させる可能性があり、その結果、システムに利益をもたらす相補性が新たに生まれる可能性があります。
それにもかかわらず、行動の多様性を定量化するツールが驚くほど不足しています。
このような技術は、集団人工知能における多様性の影響を理解し、その制御を可能にする道を開くでしょう。
この論文では、マルチエージェント システムにおける動作の異質性の尺度であるシステム ニューラル ダイバーシティ (SND) を紹介します。
私たちはその理論的特性について議論および証明し、ロボット工学分野で使用される代替の最先端の行動多様性指標と比較します。
さまざまなマルチロボットの協調タスクのシミュレーションを通じて、私たちのメトリクスが行動の不均一性の測定と制御を可能にする重要なツールをどのように構成するかを示します。
トレーニング中の繰り返しの外乱によって問題が影響を受ける動的タスクでは、SND ではエージェントが獲得した潜在的な回復力スキルを測定できる一方で、タスクのパフォーマンス (報酬) などの他の代替手段では測定できないことを示します。
最後に、このメトリクスを使用して多様性を制御し、望ましい不均一性の設定値または範囲を強制できるようにする方法を示します。
このパラダイムを使用して探索フェーズをブートストラップし、最適なポリシーをより迅速に見つけて、斬新でより効率的な MARL パラダイムを実現する方法を示します。

要約(オリジナル)

Evolutionary science provides evidence that diversity confers resilience in natural systems. Yet, traditional multi-agent reinforcement learning techniques commonly enforce homogeneity to increase training sample efficiency. When a system of learning agents is not constrained to homogeneous policies, individuals may develop diverse behaviors, resulting in emergent complementarity that benefits the system. Despite this, there is a surprising lack of tools that quantify behavioral diversity. Such techniques would pave the way towards understanding the impact of diversity in collective artificial intelligence and enabling its control. In this paper, we introduce System Neural Diversity (SND): a measure of behavioral heterogeneity in multi-agent systems. We discuss and prove its theoretical properties, and compare it with alternate, state-of-the-art behavioral diversity metrics used in the robotics domain. Through simulations of a variety of cooperative multi-robot tasks, we show how our metric constitutes an important tool that enables measurement and control of behavioral heterogeneity. In dynamic tasks, where the problem is affected by repeated disturbances during training, we show that SND allows us to measure latent resilience skills acquired by the agents, while other proxies, such as task performance (reward), fail to. Finally, we show how the metric can be employed to control diversity, allowing us to enforce a desired heterogeneity set-point or range. We demonstrate how this paradigm can be used to bootstrap the exploration phase, finding optimal policies faster, thus enabling novel and more efficient MARL paradigms.

arxiv情報

著者 Matteo Bettini,Ajay Shankar,Amanda Prorok
発行日 2024-09-10 16:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク