Optimistic critics can empower small actors

要約

俳優の批判的な方法は、深い強化学習における最近の進歩の多くの中心となっています。
最も一般的なアプローチは、対称アーキテクチャを使用することです。これにより、俳優と批評家の両方が同じネットワークトポロジとパラメーターの数を持っています。
しかし、最近の作品は、特に小規模な俳優の使用に関する非対称セットアップの利点について主張しています。
幅広い経験的調査と分析を実行して、これの意味をよりよく理解し、一般的に、より小さな俳優がパフォーマンスの劣化と過剰な批評家につながることを発見しました。
私たちの分析は、価値の過小評価のために、この行動の主な原因の1つとして、価値の過小評価のために不十分なデータ収集を示唆しており、批評家がこの病理を緩和する上で果たすことができる重要な役割をさらに強調しています。
観測された値の過小評価を緩和するための手法を探求します。これにより、非対称の俳優批判的な方法でのさらなる研究が可能になります。

要約(オリジナル)

Actor-critic methods have been central to many of the recent advances in deep reinforcement learning. The most common approach is to use symmetric architectures, whereby both actor and critic have the same network topology and number of parameters. However, recent works have argued for the advantages of asymmetric setups, specifically with the use of smaller actors. We perform broad empirical investigations and analyses to better understand the implications of this and find that, in general, smaller actors result in performance degradation and overfit critics. Our analyses suggest poor data collection, due to value underestimation, as one of the main causes for this behavior, and further highlight the crucial role the critic can play in alleviating this pathology. We explore techniques to mitigate the observed value underestimation, which enables further research in asymmetric actor-critic methods.

arxiv情報

著者 Olya Mastikhina,Dhruv Sreenivas,Pablo Samuel Castro
発行日 2025-06-04 15:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク