Deep Learning Agents Trained For Avoidance Behave Like Hawks And Doves

要約

簡単な回避ゲームを演奏するディープラーニングエージェントによって表明されたヒューリスティックな最適な戦略を提示します。
対称的なグリッドの世界内の2つのエージェントの学習と動作を分析します。これは、互いにクラッシュしたり、グリッドの世界から間違った方向に迷ったりすることなく、ターゲットの目的地に到達するためにパスを横断しなければなりません。
エージェントポリシーは、両方のエージェントで採用されている1つのニューラルネットワークによって決定されます。
私たちの調査結果は、完全に訓練されたネットワークがゲームホークスや鳩の動作と同様の動作を示すことを示しています。一方のエージェントは攻撃的な戦略を採用してターゲットに到達し、他のエージェントは攻撃的なエージェントを避ける方法を学びます。

要約(オリジナル)

We present heuristically optimal strategies expressed by deep learning agents playing a simple avoidance game. We analyse the learning and behaviour of two agents within a symmetrical grid world that must cross paths to reach a target destination without crashing into each other or straying off of the grid world in the wrong direction. The agent policy is determined by one neural network that is employed in both agents. Our findings indicate that the fully trained network exhibits behaviour similar to that of the game Hawks and Doves, in that one agent employs an aggressive strategy to reach the target while the other learns how to avoid the aggressive agent.

arxiv情報

著者 Aryaman Reddi,Glenn Vinnicombe
発行日 2025-03-14 14:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク