PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning

要約

より優れたディープ ネットワークとより優れた強化学習 (RL) アルゴリズムを設計することは、どちらもディープ RL にとって重要です。
この作品は前者を研究しています。
具体的には、知覚と意思決定のインターリービング トランスフォーマー (PDiT) ネットワークが提案されています。これは、非常に自然な方法で 2 つのトランスフォーマーをカスケード接続します。知覚側のトランスフォーマーはパッチ レベルで観察を処理することで \emph{環境認識} に焦点を当てますが、
意思決定は、望ましい利益、知覚者の出力、および行動の履歴を条件付けすることで、 \emph{意思決定} に注意を払います。
このようなネットワーク設計は一般に、多くの深い RL 設定、たとえば、画像観察、固有受容観察、またはハイブリッド画像言語観察のいずれかの環境下でのオンラインおよびオフライン RL アルゴリズムの両方に適用できます。
広範な実験により、PDiT はさまざまな設定で強力なベースラインよりも優れたパフォーマンスを達成できるだけでなく、説明可能な特徴表現も抽出できることが示されています。
私たちのコードは \url{https://github.com/maohangyu/PDiT} で入手できます。

要約(オリジナル)

Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep RL. This work studies the former. Specifically, the Perception and Decision-making Interleaving Transformer (PDiT) network is proposed, which cascades two Transformers in a very natural way: the perceiving one focuses on \emph{the environmental perception} by processing the observation at the patch level, whereas the deciding one pays attention to \emph{the decision-making} by conditioning on the history of the desired returns, the perceiver’s outputs, and the actions. Such a network design is generally applicable to a lot of deep RL settings, e.g., both the online and offline RL algorithms under environments with either image observations, proprioception observations, or hybrid image-language observations. Extensive experiments show that PDiT can not only achieve superior performance than strong baselines in different settings but also extract explainable feature representations. Our code is available at \url{https://github.com/maohangyu/PDiT}.

arxiv情報

著者 Hangyu Mao,Rui Zhao,Ziyue Li,Zhiwei Xu,Hao Chen,Yiqun Chen,Bin Zhang,Zhen Xiao,Junge Zhang,Jiangjin Yin
発行日 2023-12-26 03:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク