Pretrained Visual Representations in Reinforcement Learning

要約

視覚強化学習 (RL) は近年大幅に進歩しましたが、視覚特徴抽出器の選択は依然として重要な設計上の決定です。
この論文では、畳み込みニューラル ネットワーク (CNN) を最初からトレーニングする RL アルゴリズムのパフォーマンスと、事前トレーニングされた視覚表現 (PVR) を利用するアルゴリズムのパフォーマンスを比較します。
最先端のビジュアル RL 手法である休止率最小化 (DRM) アルゴリズムを、ResNet18、DINOv2、Visual Cortex (VC) の 3 つの PVR に対して評価します。
比較には Metaworld Push-v2 タスクと Drawer-Open-v2 タスクを使用します。
私たちの結果は、パフォーマンスを最大化するために PVR を使用する場合と比較して、ゼロからトレーニングを選択する場合はタスクに依存しますが、PVR にはリプレイ バッファー サイズの削減とトレーニング時間の短縮という点で利点があることが示されています。
また、休眠率とモデルのパフォーマンスの間に強い相関関係があることも特定し、視覚的 RL における探索の重要性を強調しています。
私たちの研究は、ゼロからのトレーニングと PVR の使用との間のトレードオフに関する洞察を提供し、将来のビジュアル RL アルゴリズムの設計に情報を提供します。

要約(オリジナル)

Visual reinforcement learning (RL) has made significant progress in recent years, but the choice of visual feature extractor remains a crucial design decision. This paper compares the performance of RL algorithms that train a convolutional neural network (CNN) from scratch with those that utilize pre-trained visual representations (PVRs). We evaluate the Dormant Ratio Minimization (DRM) algorithm, a state-of-the-art visual RL method, against three PVRs: ResNet18, DINOv2, and Visual Cortex (VC). We use the Metaworld Push-v2 and Drawer-Open-v2 tasks for our comparison. Our results show that the choice of training from scratch compared to using PVRs for maximising performance is task-dependent, but PVRs offer advantages in terms of reduced replay buffer size and faster training times. We also identify a strong correlation between the dormant ratio and model performance, highlighting the importance of exploration in visual RL. Our study provides insights into the trade-offs between training from scratch and using PVRs, informing the design of future visual RL algorithms.

arxiv情報

著者 Emlyn Williams,Athanasios Polydoros
発行日 2024-07-24 12:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク