要約
家事を行うために作られた家庭用ロボットの市場は、これらのロボットが人々を日常の責任から解放するため成長しています。
人間の労働者に取って代わられるとして頻繁に批判される産業用ロボットとは対照的に、家庭用ロボットは人間の労働を軽減する役割を果たしているとして一般に歓迎されている。
しかし、これらのロボットが家事を行う前に、周囲の認識、意思決定、人間の行動の認識など、いくつかの小さな活動に習熟する必要があります。
強化学習 (RL) は、ロボットが環境と対話し、報酬を最大化するために行動を最適化する方法を学習できるようにする主要なロボット工学技術として登場しました。
ただし、深層強化学習の目標は、RL とニューラル ネットワークを組み合わせることによって、現実世界の設定におけるより複雑で連続的な行動状態空間に対処することです。
DeepRL の有効性は、トレーナーがリアルタイムのガイダンスを提供してロボットの学習プロセスを促進する、インタラクティブなフィードバックを通じてさらに強化できます。
それにもかかわらず、現在の方法には欠点がある。すなわち、ガイダンスが一時的に適用されるため、同一条件下で学習が繰り返されることになる。
したがって、永続的なルールベースのシステムを利用する、ディープインタラクティブ強化学習を介して情報とアドバイスを保存および再利用する新しい方法を提案します。
この方法により、トレーニング プロセスが迅速化されるだけでなく、インストラクターが実行する必要がある反復回数も減ります。
この研究は、家庭用ロボットの開発を促進し、学習者としての有効性と効率を向上させる可能性を秘めています。
要約(オリジナル)
The market for domestic robots made to perform household chores is growing as these robots relieve people of everyday responsibilities. Domestic robots are generally welcomed for their role in easing human labor, in contrast to industrial robots, which are frequently criticized for displacing human workers. But before these robots can carry out domestic chores, they need to become proficient in several minor activities, such as recognizing their surroundings, making decisions, and picking up on human behaviors. Reinforcement learning, or RL, has emerged as a key robotics technology that enables robots to interact with their environment and learn how to optimize their actions to maximize rewards. However, the goal of Deep Reinforcement Learning is to address more complicated, continuous action-state spaces in real-world settings by combining RL with Neural Networks. The efficacy of DeepRL can be further augmented through interactive feedback, in which a trainer offers real-time guidance to expedite the robot’s learning process. Nevertheless, the current methods have drawbacks, namely the transient application of guidance that results in repeated learning under identical conditions. Therefore, we present a novel method to preserve and reuse information and advice via Deep Interactive Reinforcement Learning, which utilizes a persistent rule-based system. This method not only expedites the training process but also lessens the number of repetitions that instructors will have to carry out. This study has the potential to advance the development of household robots and improve their effectiveness and efficiency as learners.
arxiv情報
著者 | Arpita Soni,Sujatha Alla,Suresh Dodda,Hemanth Volikatla |
発行日 | 2024-05-29 01:46:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google