要約
我々は、ビン詰め問題の中で最も困難な設定であると言われる、不規則な3次元形状のオンラインパッキング技術を学習する問題を研究する。目標は、任意の形状を持つ3Dオブジェクトのシーケンスを、オブジェクトシーケンスの部分的な観測のみで、指定された容器に連続的に移動させることである。一方、物理的な実現可能性を考慮し、配置の物理的なダイナミクスと制約を含む。パッキングポリシーは、パッキングされる物体の3D形状を理解し、物理的に実現可能な方法で容器に収容するための効果的な決定を行う必要がある。我々は、強化学習(RL)パイプラインを提案し、ポリシーを学習する。複雑な不規則形状と不完全な物体配置を合わせると、巨大な解空間になる。このような空間を直接学習することは、データ量が膨大になる。そこで、RLのアクション空間と学習負担を軽減するために、理論的に証明可能な候補アクション生成の方法を提案する。次に、パラメータ化されたポリシーを学習し、候補の中から最適な配置を選択する。非同期RL加速の効率的な方法と、シミュレーション可能な訓練シーケンスからなるデータ準備プロセスを備え、成熟したパッキングポリシーは、物理ベースの環境で48時間以内に訓練することができる。様々な現実の形状データセットに対する広範な評価と、最先端のベースラインとの比較を通じて、本方法が全てのデータセットにおいて、パッキング有用性の観点から、少なくとも12.8%ベストパフォーマーのベースラインを上回ることを実証する。
要約(オリジナル)
We study the problem of learning online packing skills for irregular 3D shapes, which is arguably the most challenging setting of bin packing problems. The goal is to consecutively move a sequence of 3D objects with arbitrary shapes into a designated container with only partial observations of the object sequence. Meanwhile, we take physical realizability into account, involving physics dynamics and constraints of a placement. The packing policy should understand the 3D geometry of the object to be packed and make effective decisions to accommodate it in the container in a physically realizable way. We propose a Reinforcement Learning (RL) pipeline to learn the policy. The complex irregular geometry and imperfect object placement together lead to huge solution space. Direct training in such space is prohibitively data intensive. We instead propose a theoretically-provable method for candidate action generation to reduce the action space of RL and the learning burden. A parameterized policy is then learned to select the best placement from the candidates. Equipped with an efficient method of asynchronous RL acceleration and a data preparation process of simulation-ready training sequences, a mature packing policy can be trained in a physics-based environment within 48 hours. Through extensive evaluation on a variety of real-life shape datasets and comparisons with state-of-the-art baselines, we demonstrate that our method outperforms the best-performing baseline on all datasets by at least 12.8% in terms of packing utility.
arxiv情報
著者 | Hang Zhao,Zherong Pan,Yang Yu,Kai Xu |
発行日 | 2023-06-02 11:19:10+00:00 |
arxivサイト | arxiv_id(pdf) |