Deployable Reinforcement Learning with Variable Control Rate

要約

強化学習 (RL) でトレーニングされたコントローラーを実際のロボットに導入することは困難な場合があります。RL は、本質的に離散的な時間の経過を前提とするマルコフ意思決定プロセス (MDP) としてモデル化されるエージェントのポリシーに依存します。
MDP を使用すると、ほぼすべての RL ベースの制御システムが、通常、開発者の経験やアプリケーション環境の特定の特性に基づいて選択される期間 (またはタイム ステップ) の固定レート制御戦略を採用することになります。
残念ながら、安定性を確保するには、システムを最悪の場合の最高周波数で制御する必要があります。これにより、大量の計算リソースとエネルギー リソースが必要となり、オンボード ハードウェアへのコントローラの展開が妨げられる可能性があります。
リアクティブ プログラミングの原則に従い、必要な場合にのみ制御アクションを適用することで、よりシンプルなハードウェアの使用が可能になり、エネルギー消費の削減に役立つと考えられます。
可変制御レートを備えた RL の変形を提案することで、固定周波数の仮定に異議を唱えます。
このアプローチでは、ポリシーによって、エージェントが実行するアクションと、そのアクションに関連付けられたタイム ステップの期間が決定されます。
新しい設定では、Soft Actor-Critic (SAC) を拡張して、可変制御レートで最適なポリシーを計算し、Soft Elastic Actor-Critic (SEAC) アルゴリズムを導入します。
ニュートン運動学でエージェントを駆動する概念実証シミュレーションを通じて SEAC の有効性を示します。
私たちの実験では、固定金利ポリシーと比較して、平均収益が高く、タスク完了時間が短く、計算リソースが削減されていることが示されています。

要約(オリジナル)

Deploying controllers trained with Reinforcement Learning (RL) on real robots can be challenging: RL relies on agents’ policies being modeled as Markov Decision Processes (MDPs), which assume an inherently discrete passage of time. The use of MDPs results in that nearly all RL-based control systems employ a fixed-rate control strategy with a period (or time step) typically chosen based on the developer’s experience or specific characteristics of the application environment. Unfortunately, the system should be controlled at the highest, worst-case frequency to ensure stability, which can demand significant computational and energy resources and hinder the deployability of the controller on onboard hardware. Adhering to the principles of reactive programming, we surmise that applying control actions only when necessary enables the use of simpler hardware and helps reduce energy consumption. We challenge the fixed frequency assumption by proposing a variant of RL with variable control rate. In this approach, the policy decides the action the agent should take as well as the duration of the time step associated with that action. In our new setting, we expand Soft Actor-Critic (SAC) to compute the optimal policy with a variable control rate, introducing the Soft Elastic Actor-Critic (SEAC) algorithm. We show the efficacy of SEAC through a proof-of-concept simulation driving an agent with Newtonian kinematics. Our experiments show higher average returns, shorter task completion times, and reduced computational resources when compared to fixed rate policies.

arxiv情報

著者 Dong Wang,Giovanni Beltrame
発行日 2024-04-02 17:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク