要約
目に見えない環境変化にわたる深層強化学習 (DRL) の一般化には、多くの場合、さまざまなシナリオのセットにわたるトレーニングが必要です。
既存の DRL アルゴリズムの多くは、多数のバリエーションを処理する際の効率性の面で苦労しています。
Generalist-Specialist Learning (GSL) フレームワークは、最初にすべてのバリエーションでジェネラリスト モデルをトレーニングし、次にジェネラリストの重みからスペシャリストを作成し、それぞれがバリエーションのサブセットに焦点を当てることでこれに対処します。
次にジェネラリストは、スペシャリストの支援を受けながら学習を磨きます。
ただし、GSL でのランダムなタスク分割は、同じスペシャリストに非常に異なるバリエーションを割り当てることでパフォーマンスを妨げる可能性があり、多くの場合、各スペシャリストが 1 つのバリエーションのみに焦点を当てることになり、計算コストが増加します。
これを改善するために、点群特徴ベースのタスク分割 (GSL-PCD) を使用したジェネラリストとスペシャリストの学習を提案します。
私たちのアプローチは、物体点群から抽出された特徴に基づいて環境の変動をクラスタリングし、貪欲なアルゴリズムを備えたバランスの取れたクラスタリングを使用して、同じ専門家に同様の変動を割り当てます。
ManiSkill ベンチマークによるロボット操作タスクの評価では、専門家の数が固定されている場合、点群フィーチャベースのパーティショニングがバニラ パーティショニングよりも 9.4% 優れており、同等のパフォーマンスを達成するために計算要件とサンプル要件が 50% 削減されることが実証されています。
要約(オリジナル)
Generalization in Deep Reinforcement Learning (DRL) across unseen environment variations often requires training over a diverse set of scenarios. Many existing DRL algorithms struggle with efficiency when handling numerous variations. The Generalist-Specialist Learning (GSL) framework addresses this by first training a generalist model on all variations, then creating specialists from the generalist’s weights, each focusing on a subset of variations. The generalist then refines its learning with assistance from the specialists. However, random task partitioning in GSL can impede performance by assigning vastly different variations to the same specialist, often resulting in each specialist focusing on only one variation, which raises computational costs. To improve this, we propose Generalist-Specialist Learning with Point Cloud Feature-based Task Partitioning (GSL-PCD). Our approach clusters environment variations based on features extracted from object point clouds and uses balanced clustering with a greedy algorithm to assign similar variations to the same specialist. Evaluations on robotic manipulation tasks from the ManiSkill benchmark demonstrate that point cloud feature-based partitioning outperforms vanilla partitioning by 9.4%, with a fixed number of specialists, and reduces computational and sample requirements by 50% to achieve comparable performance.
arxiv情報
著者 | Xiu Yuan |
発行日 | 2024-11-11 06:03:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google