要約
私たちは、物流セクターに特有の荷降ろしの問題に焦点を当てており、逐次的なピックアンドプレイスタスクとしてモデル化されています。
このタイプのタスクでは、最新の機械学習技術が古典的なシステムよりも確率論に適応し、大きな不確実性にうまく対処できるため、うまく機能することがわかっています。
より具体的には、教師あり学習と模倣学習は、この点で優れた成果を上げていますが、すべての設定で常に取得できるとは限らない何らかの形式の監視が必要であるという欠点があります。
一方、強化学習 (RL) は、より穏やかな形式の監視を必要としますが、非効率であるため依然として実用的ではありません。
この論文では、専門家の観察に基づいて、エージェントに必要な監督レベルを緩和し、タスクにおける RL パフォーマンスの向上に取り組む新しい教師なし報酬形成アルゴリズムを提案し、理論的に動機づけます。
要約(オリジナル)
We focus on an unloading problem, typical of the logistics sector, modeled as a sequential pick-and-place task. In this type of task, modern machine learning techniques have shown to work better than classic systems since they are more adaptable to stochasticity and better able to cope with large uncertainties. More specifically, supervised and imitation learning have achieved outstanding results in this regard, with the shortcoming of requiring some form of supervision which is not always obtainable for all settings. On the other hand, reinforcement learning (RL) requires much milder form of supervision but still remains impracticable due to its inefficiency. In this paper, we propose and theoretically motivate a novel Unsupervised Reward Shaping algorithm from expert’s observations which relaxes the level of supervision required by the agent and works on improving RL performance in our task.
arxiv情報
著者 | Vittorio Giammarino,Andrew J Meyer,Kai Biegun |
発行日 | 2023-05-27 14:29:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google