要約
Transformer アーキテクチャに基づくモデルは、自然言語処理、コンピューター ビジョン、ロボット工学などの分野にわたって広く応用されており、ChatGPT のような大規模な言語モデルは、機械による人間の言語の理解に革命をもたらし、優れた記憶能力と再生能力を実証しています。
従来の機械学習アルゴリズムは壊滅的な忘却に悩まされており、ロボットの展開に必要な多様で汎用的な能力に悪影響を及ぼします。
このペーパーでは、効率的かつ効果的なシーケンス モデリングにおける高度な機能と、デシジョン トランスフォーマーおよびエクスペリエンス リプレイ アーキテクチャとの統合で知られる Receptance Weighted Key Value (RWKV) フレームワークについて調査します。
一連の意思決定と生涯にわたるロボット学習タスクにおける潜在的なパフォーマンス向上に焦点を当てています。
私たちは、Decision-RWKV (DRWKV) モデルを導入し、OpenAI Gym 環境内および D’Claw プラットフォーム上で D4RL データベースを使用して広範な実験を実施し、シングルタスク テストと生涯学習シナリオにおける DRWKV モデルのパフォーマンスを評価し、その能力を実証しています。
複数のサブタスクを効率的に処理します。
この研究におけるすべてのアルゴリズム、トレーニング、画像レンダリングのコードは、https://github.com/ancorasir/DecisionRWKV でオープンソース化されています。
要約(オリジナル)
Models based on the Transformer architecture have seen widespread application across fields such as natural language processing, computer vision, and robotics, with large language models like ChatGPT revolutionizing machine understanding of human language and demonstrating impressive memory and reproduction capabilities. Traditional machine learning algorithms struggle with catastrophic forgetting, which is detrimental to the diverse and generalized abilities required for robotic deployment. This paper investigates the Receptance Weighted Key Value (RWKV) framework, known for its advanced capabilities in efficient and effective sequence modeling, and its integration with the decision transformer and experience replay architectures. It focuses on potential performance enhancements in sequence decision-making and lifelong robotic learning tasks. We introduce the Decision-RWKV (DRWKV) model and conduct extensive experiments using the D4RL database within the OpenAI Gym environment and on the D’Claw platform to assess the DRWKV model’s performance in single-task tests and lifelong learning scenarios, showcasing its ability to handle multiple subtasks efficiently. The code for all algorithms, training, and image rendering in this study is open-sourced at https://github.com/ancorasir/DecisionRWKV.
arxiv情報
著者 | Yujian Dong,Tianyu Wu,Chaoyang Song |
発行日 | 2024-07-23 09:00:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google