要約
高次元観測の流れから関連情報を抽出することは、深い強化学習エージェントにとって中心的な課題です。
俳優の批判的なアルゴリズムは、同じ情報が俳優と批評家の両方に関連するかどうかはしばしば不明であるため、この課題にさらに複雑さを追加します。
この目的のために、私たちはここで、俳優とポリシー上のアルゴリズムの批評家の効果的な表現の根底にある原則を探ります。
私たちは、俳優と批評家が共有された表現ではなく、別々の恩恵を受けるかどうかを理解することに焦点を当てています。
私たちの主な発見は、分離すると、俳優と批評家の表現が環境からさまざまな種類の情報を抽出することを体系的に専門とすることです。俳優の表現はアクション関連情報に焦点を当てる傾向があり、批評家の表現は価値とダイナミクス情報のエンコードに特化しています。
サンプルの効率と生成能力の観点から、さまざまな表現学習アプローチが俳優と批評家の専門化と下流のパフォーマンスにどのように影響するかを理解するために、厳しい経験的研究を実施します。
最後に、私たちは、分離された批評家が、トレーニング中の探査とデータ収集において重要な役割を果たしていることを発見します。
私たちのコード、トレーニングされたモデル、およびデータは、https://github.com/francelico/deac-repでアクセスできます。
要約(オリジナル)
Extracting relevant information from a stream of high-dimensional observations is a central challenge for deep reinforcement learning agents. Actor-critic algorithms add further complexity to this challenge, as it is often unclear whether the same information will be relevant to both the actor and the critic. To this end, we here explore the principles that underlie effective representations for the actor and for the critic in on-policy algorithms. We focus our study on understanding whether the actor and critic will benefit from separate, rather than shared, representations. Our primary finding is that when separated, the representations for the actor and critic systematically specialise in extracting different types of information from the environment — the actor’s representation tends to focus on action-relevant information, while the critic’s representation specialises in encoding value and dynamics information. We conduct a rigourous empirical study to understand how different representation learning approaches affect the actor and critic’s specialisations and their downstream performance, in terms of sample efficiency and generation capabilities. Finally, we discover that a separated critic plays an important role in exploration and data collection during training. Our code, trained models and data are accessible at https://github.com/francelico/deac-rep.
arxiv情報
著者 | Samuel Garcin,Trevor McInroe,Pablo Samuel Castro,Prakash Panangaden,Christopher G. Lucas,David Abel,Stefano V. Albrecht |
発行日 | 2025-03-31 14:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google