The Ecosystem Path to General AI

要約

まず、生態系シミュレーターと一般的な AI との関連性について説明します。
次に、オープンソースのエコシステム シミュレーター Ecotwin を紹介します。Ecotwin は、ゲーム エンジン Unity に基づいており、山や湖などの無生物や動植物などの生物を含むエコシステムで動作します。
動物の認知は、3 つの別個のネットワークを統合することによってモデル化されています。
(ii) 酸素、水、エネルギー、匂いなどの感覚データをスカラー幸福値にマッピングする幸福ネットワーク。
(iii) アクションを選択するためのポリシー ネットワーク。
ポリシー ネットワークは、強化学習 (RL) でトレーニングされます。ここで、報酬シグナルは、あるタイム ステップから次のタイム ステップまでの幸福度の差として定義されます。
すべての生物は有性生殖または無性生殖のいずれかが可能であり、重要な資源が尽きると死にます。
Ecotwin を使用した 3 つの研究の結果を報告します。この研究では、自然現象がハードウェア化されずにモデルに現れます。
最初に、オオカミ、シカ、および草を含む陸上生態系を研究します。この生態系では、ロトカ・ヴォルテラ式の人口動態が出現します。
次に、植物プランクトン、カイアシ類、オキアミが生息する海洋生態系を調べます。
第三に、RL と反射神経を組み合わせた特定のエージェントが純粋な RL エージェントよりも優れた、致命的な危険を伴うエコシステムを研究します。

要約(オリジナル)

We start by discussing the link between ecosystem simulators and general AI. Then we present the open-source ecosystem simulator Ecotwin, which is based on the game engine Unity and operates on ecosystems containing inanimate objects like mountains and lakes, as well as organisms such as animals and plants. Animal cognition is modeled by integrating three separate networks: (i) a reflex network for hard-wired reflexes; (ii) a happiness network that maps sensory data such as oxygen, water, energy, and smells, to a scalar happiness value; and (iii) a policy network for selecting actions. The policy network is trained with reinforcement learning (RL), where the reward signal is defined as the happiness difference from one time step to the next. All organisms are capable of either sexual or asexual reproduction, and they die if they run out of critical resources. We report results from three studies with Ecotwin, in which natural phenomena emerge in the models without being hardwired. First, we study a terrestrial ecosystem with wolves, deer, and grass, in which a Lotka-Volterra style population dynamics emerges. Second, we study a marine ecosystem with phytoplankton, copepods, and krill, in which a diel vertical migration behavior emerges. Third, we study an ecosystem involving lethal dangers, in which certain agents that combine RL with reflexes outperform pure RL agents.

arxiv情報

著者 Claes Strannegård,Niklas Engsner,Pietro Ferrari,Hans Glimmerfors,Marcus Hilding Södergren,Tobias Karlsson,Birger Kleve,Victor Skoglund
発行日 2023-03-15 12:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, I.2.0 パーマリンク