Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making


自然言語処理における Transformer の最近の成功により、さまざまな分野での使用が始まりました。
オフライン強化学習 (RL) では、Transformer に基づく有望なモデルとして Decision Transformer (DT) が浮上しています。
しかし、DT のアテンション モジュールは、マルコフ決定プロセスとしてモデル化された RL の軌跡における固有の局所依存パターンを捕捉するには適切ではないことがわかりました。
DT の制限を克服するために、我々は、複数のエンティティを並行して処理し、複数のエンティティ間の相互関係を理解するための一般的な構造である MetaFormer のアーキテクチャに基づいた、Decision ConvFormer (DC) と呼ばれる新しいアクション シーケンス予測子を提案します。
DC はトークン ミキサーとしてローカル コンボリューション フィルタリングを採用しており、RL データセットの固有のローカル関連を効果的にキャプチャできます。
広範な実験により、DC は必要なリソースを削減しながら、さまざまな標準 RL ベンチマークにわたって最先端のパフォーマンスを達成しました。
さらに、DC がデータの根底にある意味をよりよく理解し、強化された汎化能力を示すことを示します。


The recent success of Transformer in natural language processing has sparked its use in various domains. In offline reinforcement learning (RL), Decision Transformer (DT) is emerging as a promising model based on Transformer. However, we discovered that the attention module of DT is not appropriate to capture the inherent local dependence pattern in trajectories of RL modeled as a Markov decision process. To overcome the limitations of DT, we propose a novel action sequence predictor, named Decision ConvFormer (DC), based on the architecture of MetaFormer, which is a general structure to process multiple entities in parallel and understand the interrelationship among the multiple entities. DC employs local convolution filtering as the token mixer and can effectively capture the inherent local associations of the RL dataset. In extensive experiments, DC achieved state-of-the-art performance across various standard RL benchmarks while requiring fewer resources. Furthermore, we show that DC better understands the underlying meaning in data and exhibits enhanced generalization capability.


著者 Jeonghye Kim,Suyoung Lee,Woojun Kim,Youngchul Sung
発行日 2023-10-04 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク