Less is more — the Dispatcher/ Executor principle for multi-task Reinforcement Learning

要約

人間は、予測不可能な変化がある環境で複雑な意思決定の問題を解決する際に、詳細を無視する方法を本能的に知っています。
この抽象化プロセスは、ほとんどの生物学的システムにとって重要な特性であるようで、不必要な詳細を「抽象化」し、一般化を促進するのに役立ちます。
この研究では、マルチタスク強化学習コントローラーの設計にディスパッチャー/エグゼキューターの原理を導入します。
これは、コントローラーを 2 つのエンティティ (タスクを理解するエンティティ (ディスパッチャ) と特定のデバイスの制御を計算するエンティティ (エグゼキュータ)) に分割し、これら 2 つを強力に正規化した通信チャネルで接続することを提案しています。
この意見書の背後にある核となる理論的根拠は、構造と設計原則の変更により一般化特性が改善され、データ効率が大幅に強化される可能性があるということです。
これは、ある意味、膨大な量のデータでトレーニングされた大規模なニューラル ネットワークを使用し、新たな一般化特性に賭けるという現在の傾向に対する「はい、そして…」という回答です。
サットンの「苦い教訓」という意味で、スケーリングの力については私たちも同意しますが、特にデータが豊富で無限ではない場合には、構造を考慮して設計原則を追加することが貴重かつ重要な要素となり得るという証拠をいくつか示します。
貴重な資源です。

要約(オリジナル)

Humans instinctively know how to neglect details when it comes to solve complex decision making problems in environments with unforeseeable variations. This abstraction process seems to be a vital property for most biological systems and helps to ‘abstract away’ unnecessary details and boost generalisation. In this work we introduce the dispatcher/ executor principle for the design of multi-task Reinforcement Learning controllers. It suggests to partition the controller in two entities, one that understands the task (the dispatcher) and one that computes the controls for the specific device (the executor) – and to connect these two by a strongly regularizing communication channel. The core rationale behind this position paper is that changes in structure and design principles can improve generalisation properties and drastically enforce data-efficiency. It is in some sense a ‘yes, and …’ response to the current trend of using large neural networks trained on vast amounts of data and bet on emerging generalisation properties. While we agree on the power of scaling – in the sense of Sutton’s ‘bitter lesson’ – we will give some evidence, that considering structure and adding design principles can be a valuable and critical component in particular when data is not abundant and infinite, but is a precious resource.

arxiv情報

著者 Martin Riedmiller,Tim Hertweck,Roland Hafner
発行日 2023-12-14 16:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク