要約
Decision Transformer ベースの意思決定エージェントは、複数のタスクにわたって一般化する能力を示しています。
ただし、そのパフォーマンスは大量のデータと計算に依存しています。
私たちは、この非効率性は、トレーニング全体を通してモデルがパラメータ内の動作を記憶する忘却現象に起因すると主張します。
その結果、新しいタスクでトレーニングすると、以前のタスクでのモデルのパフォーマンスが低下する可能性があります。
LLM の暗黙的記憶メカニズムとは対照的に、人間の脳は分散記憶ストレージを利用しており、これにより複数のスキルを効率的に管理および整理することができ、忘却現象が軽減されます。
これにヒントを得て、さまざまな下流タスクのための情報を保存、混合、取得するためのワーキングメモリモジュールを提案します。
評価結果は、提案された手法が Atari ゲームおよびメタワールド オブジェクト操作タスクにおける学習効率と汎化性を向上させることを示しています。
さらに、メモリの微調整により、提案されたアーキテクチャの適応性がさらに向上することを示します。
要約(オリジナル)
Decision Transformer-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and computation. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model’s performance on previous tasks. In contrast to LLMs’ implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Inspired by this, we propose a working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in Atari games and Meta-World object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture.
arxiv情報
著者 | Jikun Kang,Romain Laroche,Xingdi Yuan,Adam Trischler,Xue Liu,Jie Fu |
発行日 | 2024-05-27 16:00:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google