要約
Multi-Task Rewnection Learning(MTRL)は、単一のエージェントに複数のタスクでうまく機能する機能を備えていることを目的としています。
最近の作品は、パフォーマンスを改善するための新しい洗練されたアーキテクチャの開発に焦点を当てており、多くの場合、より大きなモデルになります。
ただし、パフォーマンスの向上が、アーキテクチャデザイン自体の結果なのか、それとも追加のパラメーターであるかは不明です。
私たちは、パラメーターカウントを一致させるために単純なMTRLベースラインを素朴にスケーリングすることで、より洗練されたアーキテクチャを上回ることを実証することにより、利益は主に規模によるものであり、これらの利益は俳優よりも批評家を拡大することから最も利益を得ることができると主張します。
さらに、タスクの多様性に伴うトレーニングの安定性の利点を調査し、タスクの数を増やすことで可塑性の損失を軽減するのに役立つことを実証します。
私たちの調査結果は、MTRLの複数のタスクにわたる同時トレーニングが、強化学習における有益なパラメータースケーリングのための自然なフレームワークを提供し、複雑な建築革新の必要性に挑戦することを示唆しています。
要約(オリジナル)
Multi-task reinforcement learning (MTRL) aims to endow a single agent with the ability to perform well on multiple tasks. Recent works have focused on developing novel sophisticated architectures to improve performance, often resulting in larger models; it is unclear, however, whether the performance gains are a consequence of the architecture design itself or the extra parameters. We argue that gains are mostly due to scale by demonstrating that naively scaling up a simple MTRL baseline to match parameter counts outperforms the more sophisticated architectures, and these gains benefit most from scaling the critic over the actor. Additionally, we explore the training stability advantages that come with task diversity, demonstrating that increasing the number of tasks can help mitigate plasticity loss. Our findings suggest that MTRL’s simultaneous training across multiple tasks provides a natural framework for beneficial parameter scaling in reinforcement learning, challenging the need for complex architectural innovations.
arxiv情報
著者 | Reginald McLean,Evangelos Chatzaroulas,Jordan Terry,Isaac Woungang,Nariman Farsad,Pablo Samuel Castro |
発行日 | 2025-03-12 16:43:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google