Counterfactual rewards promote collective transport using individually controlled swarm microrobots

要約

Swarm ロボットは、個々のマシンの能力を超えた複雑なタスクを実行する魅力的な機会を提供します。
アリの群れが大きな物体を集団で動かすのと同じように、局所的なセンシングに基づく個別の戦略を通じて、ロボットのグループ内でも同様の機能が出現する可能性があります。
しかし、個別に制御されるマイクロロボットで集合的機能を実現することは、マイクロロボットのサイズ、自由度の多さ、推進速度に比べて強い熱雑音、隣接するマイクロロボット間の複雑な物理的結合、表面衝突などの理由から、特に困難です。
ここでは、マルチエージェント強化学習 (MARL) を実装して、レーザー スポットによって動作が個別に制御される最大 200 台のマイクロロボットの制御戦略を生成します。
学習プロセス中に、個々のマイクロロボットに自動的に功績を割り当てるいわゆる反事実報酬を採用し、迅速かつ公平なトレーニングを可能にします。
この効率的な報酬スキームの助けを借りて、群マイクロロボットは、アリの群れと同様に、大きな積荷を任意の位置と方向に集団で輸送することを学習します。
私たちは、この柔軟で汎用性の高い群れロボット システムが、グループ サイズの変化、故障しているユニットの存在、環境ノイズに対して堅牢であることを実証します。
このような制御戦略により、モバイル マイクロマシン、プログラム可能な薬物送達カプセル、その他の高度なラボ オン チップ アプリケーションの複雑で自動化されたアセンブリが可能になる可能性があります。

要約(オリジナル)

Swarm robots offer fascinating opportunities to perform complex tasks beyond the capabilities of individual machines. Just as a swarm of ants collectively moves a large object, similar functions can emerge within a group of robots through individual strategies based on local sensing. However, realizing collective functions with individually controlled microrobots is particularly challenging due to their micrometer size, large number of degrees of freedom, strong thermal noise relative to the propulsion speed, complex physical coupling between neighboring microrobots, and surface collisions. Here, we implement Multi-Agent Reinforcement Learning (MARL) to generate a control strategy for up to 200 microrobots whose motions are individually controlled by laser spots. During the learning process, we employ so-called counterfactual rewards that automatically assign credit to the individual microrobots, which allows for fast and unbiased training. With the help of this efficient reward scheme, swarm microrobots learn to collectively transport a large cargo object to an arbitrary position and orientation, similar to ant swarms. We demonstrate that this flexible and versatile swarm robotic system is robust to variations in group size, the presence of malfunctioning units, and environmental noise. Such control strategies can potentially enable complex and automated assembly of mobile micromachines, programmable drug delivery capsules, and other advanced lab-on-a-chip applications.

arxiv情報

著者 Veit-Lorenz Heuthe,Emanuele Panizon,Hongri Gu,Clemens Bechinger
発行日 2024-07-29 14:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.RO パーマリンク