要約
深層強化学習は、複雑な意思決定タスクにおいて超人的なパフォーマンスを実証しましたが、真のインテリジェンスの重要な側面である一般化と知識の再利用には苦労しています。
この記事では、強化学習専用にサイクル生成敵対的ネットワークを変更し、2 つのタスク間で効果的な 1 対 1 の知識伝達を可能にする新しいアプローチを紹介します。
私たちの手法は、ソース タスクとターゲット タスク間の動的な関係を捉えるモデル損失と、ターゲットの意思決定ポリシーに大きな影響を与える状態を特定する Q 損失という 2 つの新しいコンポーネントで損失関数を強化します。
2-D Atari ゲーム Pong でテストしたところ、私たちの方法は同一タスクで 100% の知識伝達を達成し、ネットワーク アーキテクチャに応じて、ローテーションされたタスクでは 100% の知識伝達またはトレーニング時間の 30% 削減を達成しました。
対照的に、標準の敵対的生成ネットワークまたは敵対的サイクル生成ネットワークを使用すると、ほとんどの場合、ゼロからトレーニングする場合よりもパフォーマンスが低下します。
結果は、提案された方法が深層強化学習における知識の一般化を確実に強化したことを示しています。
要約(オリジナル)
Deep reinforcement learning has demonstrated superhuman performance in complex decision-making tasks, but it struggles with generalization and knowledge reuse – key aspects of true intelligence. This article introduces a novel approach that modifies Cycle Generative Adversarial Networks specifically for reinforcement learning, enabling effective one-to-one knowledge transfer between two tasks. Our method enhances the loss function with two new components: model loss, which captures dynamic relationships between source and target tasks, and Q-loss, which identifies states significantly influencing the target decision policy. Tested on the 2-D Atari game Pong, our method achieved 100% knowledge transfer in identical tasks and either 100% knowledge transfer or a 30% reduction in training time for a rotated task, depending on the network architecture. In contrast, using standard Generative Adversarial Networks or Cycle Generative Adversarial Networks led to worse performance than training from scratch in the majority of cases. The results demonstrate that the proposed method ensured enhanced knowledge generalization in deep reinforcement learning.
arxiv情報
著者 | Marko Ruman,Tatiana V. Guy |
発行日 | 2024-11-11 17:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google