Design of Restricted Normalizing Flow towards Arbitrary Stochastic Policy with Computational Efficiency

要約

本稿では、正規化フロー(NF)を用いた確率的制御政策の新しい設計手法を提案する。
強化学習 (RL) では、ポリシーは通常、トレーニング可能なパラメーターを備えた分布モデルとしてモデル化されます。
このパラメータ化の表現力が低いと、最適なポリシーを取得できない可能性があります。
混合モデルは普遍的な近似が可能ですが、冗長性が高すぎると計算コストが増大し、リアルタイムロボット制御の利用を検討する際のボトルネックとなることがあります。
別のアプローチとして、単純な確率モデルをベースに逆変換のためのパラメータを追加したNFは、高い表現力と計算コストの削減が期待されています。
しかし、NF は可逆変換の複雑さのため解析的に平均値を計算できず、ロボット コントローラーへの展開後も確率的動作が保持されるため信頼性に欠けます。
したがって、この論文では、可逆変換を適切に制限することによって解析平均を達成する制限付き NF (RNF) を設計します。
さらに、この制限によって損なわれた表現力は、Bit-RNF と呼ばれる二峰性 Student-t 分布をベースとして使用して回復されます。
RL ベンチマークでは、Bit-RNF ポリシーが以前のモデルを上回りました。
最後に、実際のロボット実験により、Bit-RNF ポリシーが現実世界に適用できることが実証されました。
添付のビデオは YouTube にアップロードされています: https://youtu.be/R_GJVZDW9bk

要約(オリジナル)

This paper proposes a new design method for a stochastic control policy using a normalizing flow (NF). In reinforcement learning (RL), the policy is usually modeled as a distribution model with trainable parameters. When this parameterization has less expressiveness, it would fail to acquiring the optimal policy. A mixture model has capability of a universal approximation, but it with too much redundancy increases the computational cost, which can become a bottleneck when considering the use of real-time robot control. As another approach, NF, which is with additional parameters for invertible transformation from a simple stochastic model as a base, is expected to exert high expressiveness and lower computational cost. However, NF cannot compute its mean analytically due to complexity of the invertible transformation, and it lacks reliability because it retains stochastic behaviors after deployment for robot controller. This paper therefore designs a restricted NF (RNF) that achieves an analytic mean by appropriately restricting the invertible transformation. In addition, the expressiveness impaired by this restriction is regained using bimodal student-t distribution as its base, so-called Bit-RNF. In RL benchmarks, Bit-RNF policy outperformed the previous models. Finally, a real robot experiment demonstrated the applicability of Bit-RNF policy to real world. The attached video is uploaded on youtube: https://youtu.be/R_GJVZDW9bk

arxiv情報

著者 Taisuke Kobayashi,Takumi Aotani
発行日 2024-12-17 13:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク