要約
対称性はロボット工学に普及しており、ディープ補強学習(DRL)のサンプル効率を改善するために広く利用されています。
ただし、既存のアプローチは、主に反射、回転、翻訳などの空間的対称性に焦点を当て、一時的な対称性をほとんど無視しています。
このギャップに対処するために、ドアの開閉などのロボットタスクで一般的に見られる時間的対称の形である時間反転対称性を探ります。
時間の逆方向の対称性強化されたディープ補強学習(TR-DRL)を提案します。これは、軌道反転増強と時間の逆転誘導報酬形状を組み合わせて、時間的に対称的なタスクを効率的に解くことを提案します。
私たちの方法は、トレーニングデータを強化するために、提案されたダイナミクス一貫性のあるフィルターによって識別される完全に可逆的な遷移から逆転した遷移を生成します。
部分的に可逆的な遷移のために、逆のタスクからの成功した軌跡に従って、学習を導くために報酬形状を適用します。
RobosuiteおよびMetaworldのベンチマークでの広範な実験は、TR-DRLがシングルタスク設定とマルチタスク設定の両方で効果的であることを示しており、ベースライン方法と比較してより高いサンプル効率と最終パフォーマンスが強化されています。
要約(オリジナル)
Symmetry is pervasive in robotics and has been widely exploited to improve sample efficiency in deep reinforcement learning (DRL). However, existing approaches primarily focus on spatial symmetries, such as reflection, rotation, and translation, while largely neglecting temporal symmetries. To address this gap, we explore time reversal symmetry, a form of temporal symmetry commonly found in robotics tasks such as door opening and closing. We propose Time Reversal symmetry enhanced Deep Reinforcement Learning (TR-DRL), a framework that combines trajectory reversal augmentation and time reversal guided reward shaping to efficiently solve temporally symmetric tasks. Our method generates reversed transitions from fully reversible transitions, identified by a proposed dynamics-consistent filter, to augment the training data. For partially reversible transitions, we apply reward shaping to guide learning, according to successful trajectories from the reversed task. Extensive experiments on the Robosuite and MetaWorld benchmarks demonstrate that TR-DRL is effective in both single-task and multi-task settings, achieving higher sample efficiency and stronger final performance compared to baseline methods.
arxiv情報
著者 | Yunpeng Jiang,Jianshu Hu,Paul Weng,Yutong Ban |
発行日 | 2025-05-20 04:40:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google