要約
スタイル転送は、美術、自然言語処理、固定軌道など、多くの分野で提案されています。
この概念を拡張して、深層強化学習インフラストラクチャ内でポリシーを制御します。
各ネットワークは、期待される報酬を最大化するようにトレーニングされます。これは通常、アクションの目標をコード化し、コンテンツとして説明できます。
ディープ ニューラル ネットワークの表現力により、スタイルと表現できる二次タスクのエンコードが可能になります。
Neural Policy Style Transfer (NPST) アルゴリズムは、あるポリシーの内容を維持しながら、あるポリシーのスタイルを別のポリシーに転送するために提案されています。
Deep Q-Network アーキテクチャを通じてさまざまなポリシーが定義されます。
これらのモデルは、逆強化学習によるデモンストレーションを使用してトレーニングされます。
コンテンツとスタイルの 2 つの異なるユーザー デモンストレーション セットが実行されます。
ユーザーのデモンストレーションによって定義されたように、さまざまなスタイルがエンコードされます。
生成されたポリシーは、コンテンツ ポリシーとスタイル ポリシーを NPST アルゴリズムに供給した結果です。
実験は、深層強化学習の古典的な Atari ゲームに触発されたキャッチボール ゲームで実行されます。
著者の以前の作品に基づいた、実物大の人型ロボットを使用した現実世界の絵画シナリオです。
NPST フレームワーク内でポリシーをエンコードするための 3 つの異なる Q ネットワーク アーキテクチャ (浅い、深い、深いリカレント Q ネットワーク) の実装が提案され、これらの各アーキテクチャの実験で得られた結果が比較されます。
要約(オリジナル)
Style Transfer has been proposed in a number of fields: fine arts, natural language processing, and fixed trajectories. We scale this concept up to control policies within a Deep Reinforcement Learning infrastructure. Each network is trained to maximize the expected reward, which typically encodes the goal of an action, and can be described as the content. The expressive power of deep neural networks enables encoding a secondary task, which can be described as the style. The Neural Policy Style Transfer (NPST) algorithm is proposed to transfer the style of one policy to another, while maintaining the content of the latter. Different policies are defined via Deep Q-Network architectures. These models are trained using demonstrations through Inverse Reinforcement Learning. Two different sets of user demonstrations are performed, one for content and other for style. Different styles are encoded as defined by user demonstrations. The generated policy is the result of feeding a content policy and a style policy to the NPST algorithm. Experiments are performed in a catch-ball game inspired by the Deep Reinforcement Learning classical Atari games; and a real-world painting scenario with a full-sized humanoid robot, based on previous works of the authors. The implementation of three different Q-Network architectures (Shallow, Deep and Deep Recurrent Q-Network) to encode the policies within the NPST framework is proposed and the results obtained in the experiments with each of these architectures compared.
arxiv情報
| 著者 | Raul Fernandez-Fernandez,Juan G. Victores,Jennifer J. Gago,David Estevez,Carlos Balaguer |
| 発行日 | 2024-02-01 15:37:42+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google