Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning

要約

強化学習 (RL) は、複雑な環境でマイクロ ロボットをプログラミングするための柔軟で効率的な方法です。
ここでは、走化性を実行するように訓練された場合に、強化学習が生物学的システムへの洞察を提供できるかどうかを調査します。
つまり、インテリジェントエージェントがターゲットに向かって泳ぐために与えられた情報をどのように処理するかを学ぶことができるかどうかです。
私たちは、さまざまなエージェントの形状、サイズ、遊泳速度をカバーするシミュレーションを実行して、生物学的遊泳者に対する物理的制約、つまりブラウン運動が強化学習者のトレーニングに失敗する領域を引き起こすかどうかを判断します。
私たちは、RL エージェントが物理的に可能な限りすぐに走化性を実行できること、場合によっては、活発な水泳が確率的環境を圧倒する前に走化性を実行できることを発見しました。
私たちは緊急ポリシーの効率を研究し、エージェントのサイズとスイム速度の収束を特定します。
最後に、エージェントがタスクをどのように実行するかを説明するために、強化学習アルゴリズムによって採用された戦略を研究します。
この目的を達成するために、私たちは 3 つの新たな有力な戦略と、採用されているいくつかの珍しいアプローチを特定します。
これらの戦略は、シミュレーションでほぼ同一の軌道を生成する一方で、独特であり、生物学的因子が環境を探索し、変化する条件に応答する背後にある考えられるメカニズムについての洞察を与えます。

要約(オリジナル)

Reinforcement learning (RL) is a flexible and efficient method for programming micro-robots in complex environments. Here we investigate whether reinforcement learning can provide insights into biological systems when trained to perform chemotaxis. Namely, whether we can learn about how intelligent agents process given information in order to swim towards a target. We run simulations covering a range of agent shapes, sizes, and swim speeds to determine if the physical constraints on biological swimmers, namely Brownian motion, lead to regions where reinforcement learners’ training fails. We find that the RL agents can perform chemotaxis as soon as it is physically possible and, in some cases, even before the active swimming overpowers the stochastic environment. We study the efficiency of the emergent policy and identify convergence in agent size and swim speeds. Finally, we study the strategy adopted by the reinforcement learning algorithm to explain how the agents perform their tasks. To this end, we identify three emerging dominant strategies and several rare approaches taken. These strategies, whilst producing almost identical trajectories in simulation, are distinct and give insight into the possible mechanisms behind which biological agents explore their environment and respond to changing conditions.

arxiv情報

著者 Samuel Tovey,Christoph Lohrmann,Christian Holm
発行日 2024-04-02 14:42:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, physics.bio-ph パーマリンク