要約
我々は、構造化強化学習ポリシー アーキテクチャの新しいクラスである Implicit Two-Tower (ITT) ポリシーを提案します。このポリシーでは、アクションは、入力状態の学習可能な潜在表現の注意スコアに基づいて選択されます。
ポリシー スタック内の状態処理からアクションを明示的に分離することで、大幅な計算量の向上とパフォーマンスの向上という 2 つの主な目標を達成します。
私たちのアーキテクチャは、離散アクション空間と連続アクション空間の両方と互換性があります。
OpenAI Gym と DeepMind Control Suite の 15 の環境でテストを実施することにより、ITT アーキテクチャがブラックボックス/進化的最適化に特に適しており、対応するポリシー トレーニング アルゴリズムが、通常の非構造化暗黙的ポリシーや一般的に使用される明示的ポリシーよりも優れたパフォーマンスを発揮することを示しました。
ITT の 2 タワー構造に大きく依存するハッシュや遅延タワー更新などの手法を適用して、さらなる計算能力の向上を得る方法を示すことで、分析を補完します。
要約(オリジナル)
We present a new class of structured reinforcement learning policy-architectures, Implicit Two-Tower (ITT) policies, where the actions are chosen based on the attention scores of their learnable latent representations with those of the input states. By explicitly disentangling action from state processing in the policy stack, we achieve two main goals: substantial computational gains and better performance. Our architectures are compatible with both: discrete and continuous action spaces. By conducting tests on 15 environments from OpenAI Gym and DeepMind Control Suite, we show that ITT-architectures are particularly suited for blackbox/evolutionary optimization and the corresponding policy training algorithms outperform their vanilla unstructured implicit counterparts as well as commonly used explicit policies. We complement our analysis by showing how techniques such as hashing and lazy tower updates, critically relying on the two-tower structure of ITTs, can be applied to obtain additional computational improvements.
arxiv情報
著者 | Yunfan Zhao,Qingkai Pan,Krzysztof Choromanski,Deepali Jain,Vikas Sindhwani |
発行日 | 2023-10-25 15:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google