Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint

要約

強化学習におけるソフト・アクター・クリティック(SAC)は、次世代のロボット制御方式の一つとして期待されている。SACは政策エントロピーを最大化することで、ノイズや摂動に対してロバストなロボット制御を実現する。しかし、現在の実装では、政策エントロピーの最大化の優先順位が自動的に調整されており、そのルールは、政策エントロピーを指定された下限値に束縛する、等式制約のためのものと解釈できる。したがって、現在のSACは、我々の期待に反して、政策エントロピーを最大化しなくなった。SACのこの問題を解決するために、本論文では、不等式制約を対応する等式制約として再定式化することにより、政策エントロピーを最大化するために、不等式制約を適切に扱うための学習可能な状態依存のスラック変数を用いて、SACの実装を改善する。導入されたスラック変数は、等式制約を満たすことと下界をチェックすることの二重の目的を考慮したスイッチング型の損失関数によって最適化される。MujocoとPybulletのシミュレータにおいて、修正されたSACは、行動規範を正則化しつつ、敵対的攻撃に対して従来よりも高い頑健性を統計的に達成した。実ロボット可変インピーダンスタスクを用いて、修正SACの実ロボット制御への適用性を示した。特に、訓練中に全く経験のなかった人間とロボットの物理的インタラクションに対して、修正SACは適応的な振る舞いを維持した。https://youtu.be/EH3xVtlVaJw

要約(オリジナル)

Soft actor-critic (SAC) in reinforcement learning is expected to be one of the next-generation robot control schemes. Its ability to maximize policy entropy would make a robotic controller robust to noise and perturbation, which is useful for real-world robot applications. However, the priority of maximizing the policy entropy is automatically tuned in the current implementation, the rule of which can be interpreted as one for equality constraint, binding the policy entropy into its specified lower bound. The current SAC is therefore no longer maximize the policy entropy, contrary to our expectation. To resolve this issue in SAC, this paper improves its implementation with a learnable state-dependent slack variable for appropriately handling the inequality constraint to maximize the policy entropy by reformulating it as the corresponding equality constraint. The introduced slack variable is optimized by a switching-type loss function that takes into account the dual objectives of satisfying the equality constraint and checking the lower bound. In Mujoco and Pybullet simulators, the modified SAC statistically achieved the higher robustness for adversarial attacks than before while regularizing the norm of action. A real-robot variable impedance task was demonstrated for showing the applicability of the modified SAC to real-world robot control. In particular, the modified SAC maintained adaptive behaviors for physical human-robot interaction, which had no experience at all during training. https://youtu.be/EH3xVtlVaJw

arxiv情報

著者 Taisuke Kobayashi
発行日 2023-07-02 08:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク