要約
Soft Actor-Critic(SAC)は、批評家ネットワークに大きく依存しており、通常、単一の状態アクションペアを評価してポリシーの更新をガイドします。
N-STEPリターンを使用することは、批評家の目標値のバイアスを減らすための一般的な慣行です。
ただし、N-STEPリターンを使用すると、再び高い分散が導入され、重要性のサンプリングが必要になります。
最近のアルゴリズムは、直接的なアクションの繰り返しと動きのプリミティブなど、アクションチャンキングなどを調査して、探索を強化しました。
この論文では、N-Returnsフレームワークを安定した効率的な方法で統合するSACのトランスベースの批評家ネットワークを提案します。
Actor Networkでチャンキングを実行するアプローチとは異なり、潜在的なパフォーマンスの向上を調査するために、批評家ネットワークにチャンクしたアクションをフィードします。
当社のアーキテクチャは、シーケンシャル情報を処理する変圧器の能力を活用し、より堅牢な値の推定を促進します。
経験的な結果は、この方法が効率的で安定したトレーニングを達成するだけでなく、まばらな報酬/多相環境にも優れていることを示しています。
これらの発見は、変圧器ベースの批評家とn-returnsを組み合わせて、補強学習パフォーマンスを進めるという約束を強調しています
要約(オリジナル)
Soft Actor-Critic (SAC) critically depends on its critic network, which typically evaluates a single state-action pair to guide policy updates. Using N-step returns is a common practice to reduce the bias in the target values of the critic. However, using N-step returns can again introduce high variance and necessitates importance sampling, often destabilizing training. Recent algorithms have also explored action chunking-such as direct action repetition and movement primitives-to enhance exploration. In this paper, we propose a Transformer-based Critic Network for SAC that integrates the N-returns framework in a stable and efficient manner. Unlike approaches that perform chunking in the actor network, we feed chunked actions into the critic network to explore potential performance gains. Our architecture leverages the Transformer’s ability to process sequential information, facilitating more robust value estimation. Empirical results show that this method not only achieves efficient, stable training but also excels in sparse reward/multi-phase environments-traditionally a challenge for step-based methods. These findings underscore the promise of combining Transformer-based critics with N-returns to advance reinforcement learning performance
arxiv情報
著者 | Dong Tian,Ge Li,Hongyi Zhou,Onur Celik,Gerhard Neumann |
発行日 | 2025-03-06 15:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google