要約
動物やロボットは物理世界に存在し、行動目標を達成するために身体を調整する必要があります。
深層強化学習の最近の発展により、科学者やエンジニアは、物理的にシミュレートされた身体や環境を使用して、特定のタスクに対する感覚運動戦略 (ポリシー) を取得できるようになりました。
ただし、これらの方法の有用性は、特定のタスクの制約を超えています。
これらは、動物の感覚運動システムの形態と環境との物理的相互作用に関連して動物の感覚運動システムの構成を理解するため、またロボット システムの感知と作動のための一般的な設計ルールを導き出すための刺激的なフレームワークを提供します。
学習エージェントと学習環境の両方を実装するアルゴリズムとコードはますます利用可能になっていますが、深層強化学習を使用した具現化されたフィードバック制御問題の定式化に含まれる基本的な前提と選択肢は、すぐには明らかではない場合があります。
ここでは、動物やロボットの行動の根底にあるフィードバック制御を調査するためのツールとして、特に \textit{actor-critic} メソッドの使用を通じて、モデルフリー強化学習の数学的およびアルゴリズム的側面を簡潔に説明します。
要約(オリジナル)
Animals and robots exist in a physical world and must coordinate their bodies to achieve behavioral objectives. With recent developments in deep reinforcement learning, it is now possible for scientists and engineers to obtain sensorimotor strategies (policies) for specific tasks using physically simulated bodies and environments. However, the utility of these methods goes beyond the constraints of a specific task; they offer an exciting framework for understanding the organization of an animal sensorimotor system in connection to its morphology and physical interaction with the environment, as well as for deriving general design rules for sensing and actuation in robotic systems. Algorithms and code implementing both learning agents and environments are increasingly available, but the basic assumptions and choices that go into the formulation of an embodied feedback control problem using deep reinforcement learning may not be immediately apparent. Here, we present a concise exposition of the mathematical and algorithmic aspects of model-free reinforcement learning, specifically through the use of \textit{actor-critic} methods, as a tool for investigating the feedback control underlying animal and robotic behavior.
arxiv情報
著者 | Yusheng Jiao,Feng Ling,Sina Heydari,Nicolas Heess,Josh Merel,Eva Kanso |
発行日 | 2024-05-19 05:58:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google