Learning more with the same effort: how randomization improves the robustness of a robotic deep reinforcement learning agent

要約

ディープ補強学習(DRL)の産業用途は、モデルのトレーニングに必要なエクスペリエンスを生成できないため、頻繁に減速します。
データの収集には、ほとんどの場合、手頃な価格のかなりの時間と経済的努力が含まれます。
幸いなことに、ロボットのようなデバイスは、仮想環境のおかげで合成体験でトレーニングできます。
このアプローチでは、人工剤のサンプル効率の問題が軽減されますが、別の問題が発生します。合成体験を現実の世界に効率的に転送する必要性(SIM-to-Real)です。
このペーパーでは、プログレッシブニューラルネットワーク(PNN)として知られる最先端のSIMからリアルの技術の堅牢性を分析し、合成体験に多様性を追加することがそれを補完する方法を研究します。
堅牢性の欠如につながるドライバーをよりよく理解するために、ロボットエージェントはまだ仮想環境でテストされており、シミュレートされたモデルと実際のモデル間の相違を完全に制御できます。
結果は、PNN様エージェントが実際のトレーニングフェーズの開始時にその堅牢性を大幅に減少させることを示しています。
シミュレーションベースのトレーニング中に特定の変数をランダム化すると、この問題が大幅に軽減されます。
平均して、トレーニングプロセスで多様性が導入された場合、モデルの精度の増加は約25%です。
この改善は、同じ最終的な堅牢性パフォーマンスに必要な実際のエクスペリエンスの減少に変換できます。
それにもかかわらず、エージェントに実際のエクスペリエンスを追加することは、エージェントに供給された仮想エクスペリエンスの品質に関係なく、依然として有益であるはずです。

要約(オリジナル)

The industrial application of Deep Reinforcement Learning (DRL) is frequently slowed down because of the inability to generate the experience required to train the models. Collecting data often involves considerable time and economic effort that is unaffordable in most cases. Fortunately, devices like robots can be trained with synthetic experience thanks to virtual environments. With this approach, the sample efficiency problems of artificial agents are mitigated, but another issue arises: the need for efficiently transferring the synthetic experience into the real world (sim-to-real). This paper analyzes the robustness of a state-of-the-art sim-to-real technique known as progressive neural networks (PNNs) and studies how adding diversity to the synthetic experience can complement it. To better understand the drivers that lead to a lack of robustness, the robotic agent is still tested in a virtual environment to ensure total control on the divergence between the simulated and real models. The results show that a PNN-like agent exhibits a substantial decrease in its robustness at the beginning of the real training phase. Randomizing certain variables during simulation-based training significantly mitigates this issue. On average, the increase in the model’s accuracy is around 25% when diversity is introduced in the training process. This improvement can be translated into a decrease in the required real experience for the same final robustness performance. Notwithstanding, adding real experience to agents should still be beneficial regardless of the quality of the virtual experience fed into the agent.

arxiv情報

著者 Lucía Güitta-López,Jaime Boal,Álvaro J. López-López
発行日 2025-01-24 12:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.6 パーマリンク