A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents

要約

ヒトナビゲーターに使用されるデュアルソリューションパラダイムテストによって動機付けられたショートカット使用ナビゲーションタスクで、深い補強学習エージェントを訓練するためのシミュレートされた環境を開発しました。
エージェントがショートカットとナビゲーションキューにさらされた頻度を操作し、これらの要因がショートカットの使用開発にどのように影響するかを調査しました。
すべてのエージェントは、初期学習が開始されると、クローズドショートカットトライアルで最適なパフォーマンスを急速に達成することがわかります。
ただし、開いているときのナビゲーション速度とショートカットの使用は、より高いショートカット曝露を伴うエージェントでより速く発生します。
エージェントの人工ニューラルネットワークアクティビティの分析により、キューの頻繁な提示により、最初は個々のノードのアクティビティでキューのエンコードが発生したことが明らかになりました。
ただし、単に露出ではなく、ナビゲーション計画のコンテキストでキューを使用することにより、最終的にはより強いキュー表現が形成されました。
すべてのエージェントで、空間表現はトレーニングの早い段階で発達し、その後ナビゲーション戦略が完全に発達する前に安定することがわかりました。
さらに、新しい分析手法を使用して、エージェントの直接の位置ではなく、計画された軌道がエージェントのネットワークにエンコードされていることがわかりました。
さらに、エンコーディングは、個々のノードレベルではなく母集団で表されます。
これらの手法は、個々の活動パターンを超えたニューロンまたはネットワークノードの集団間で神経活動を研究する際に、より広範な用途を持つ可能性があります。

要約(オリジナル)

We developed a simulated environment to train deep reinforcement learning agents on a shortcut usage navigation task, motivated by the Dual Solutions Paradigm test used for human navigators. We manipulated the frequency with which agents were exposed to a shortcut and a navigation cue, to investigate how these factors influence shortcut usage development. We find that all agents rapidly achieve optimal performance in closed shortcut trials once initial learning starts. However, their navigation speed and shortcut usage when it is open happen faster in agents with higher shortcut exposure. Analysis of the agents’ artificial neural networks activity revealed that frequent presentation of a cue initially resulted in better encoding of the cue in the activity of individual nodes, compared to agents who encountered the cue less often. However, stronger cue representations were ultimately formed through the use of the cue in the context of navigation planning, rather than simply through exposure. We found that in all agents, spatial representations develop early in training and subsequently stabilize before navigation strategies fully develop, suggesting that having spatially consistent activations is necessary for basic navigation, but insufficient for advanced strategies. Further, using new analysis techniques, we found that the planned trajectory rather than the agent’s immediate location is encoded in the agent’s networks. Moreover, the encoding is represented at the population rather than the individual node level. These techniques could have broader applications in studying neural activity across populations of neurons or network nodes beyond individual activity patterns.

arxiv情報

著者 Andrew Liu,Alla Borisyuk
発行日 2025-03-19 16:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク