要約
我々は、オンライン3Dビン詰め問題に取り組んでいる。これは、古典的なビン詰め問題の挑戦的かつ実用的な変形である。この問題では、アイテムは完全な順序情報を知らされることなくエージェントに配送される。エージェントは、これらの品物を、到着順序を変えることなく、安定的に目標ビンに直接詰め込まなければならず、それ以上の調整は許されない。オンライン3D-BPPは、マルコフ決定過程(MDP)として自然に定式化することができる。我々は、行動空間が制約されたこのMDPを解くために、深層強化学習、特に、オンポリシーアクタークリティックのフレームワークを採用する。現実的に実現可能なパッキングポリシーを学習するために、我々は3つの重要な設計を提案する。まず、新しいスタッキングツリーに基づくパッキング安定性のオンライン分析を提案する。これは、高い解析精度を達成しながら、計算量を$O(N^2)$から$O(N \log N)$に削減し、RL学習に特に適している。第二に、異なる次元の配置に対して、高分解能の空間離散化を可能にし、高いパッキング精度を実現する、分離型パッキングポリシー学習を提案する。第三に、ロボットが遠方から近傍への順序で物品を配置するように指示する報酬関数を導入し、ロボットアームの移動計画における衝突回避を単純化する。さらに、いくつかの重要な実装上の問題点についても包括的な議論を提供する。広範な評価により、我々の学習した方針が最先端の方法を大きく上回り、実世界のアプリケーションに実用的に使用できることが実証された。
要約(オリジナル)
We tackle the Online 3D Bin Packing Problem, a challenging yet practically useful variant of the classical Bin Packing Problem. In this problem, the items are delivered to the agent without informing the full sequence information. Agent must directly pack these items into the target bin stably without changing their arrival order, and no further adjustment is permitted. Online 3D-BPP can be naturally formulated as Markov Decision Process (MDP). We adopt deep reinforcement learning, in particular, the on-policy actor-critic framework, to solve this MDP with constrained action space. To learn a practically feasible packing policy, we propose three critical designs. First, we propose an online analysis of packing stability based on a novel stacking tree. It attains a high analysis accuracy while reducing the computational complexity from $O(N^2)$ to $O(N \log N)$, making it especially suited for RL training. Second, we propose a decoupled packing policy learning for different dimensions of placement which enables high-resolution spatial discretization and hence high packing precision. Third, we introduce a reward function that dictates the robot to place items in a far-to-near order and therefore simplifies the collision avoidance in movement planning of the robotic arm. Furthermore, we provide a comprehensive discussion on several key implemental issues. The extensive evaluation demonstrates that our learned policy outperforms the state-of-the-art methods significantly and is practically usable for real-world applications.
arxiv情報
著者 | Hang Zhao,Chenyang Zhu,Xin Xu,Hui Huang,Kai Xu |
発行日 | 2023-06-02 10:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |