Adjustable Robust Reinforcement Learning for Online 3D Bin Packing

要約

オンライン 3D ビン パッキング問題 (3D-BPP) に対する効果的なポリシーを設計することは、主に受信ボックスのシーケンスの予測不可能な性質と厳しい物理的制約により、長年の課題となっています。
オンライン 3D-BPP の現在の深層強化学習 (DRL) 手法は、基礎となるボックス シーケンス分布に対する平均パフォーマンスの最適化において有望な結果を示していますが、最悪のシナリオが現実化する可能性がある現実の環境では失敗することがよくあります。
標準的な堅牢な DRL アルゴリズムは、通常の問題インスタンスの分布の下でのパフォーマンスを犠牲にして、最悪の場合のパフォーマンスの最適化を過度に優先する傾向があります。
これらの問題に対処するために、最初に順列ベースの攻撃者を導入し、オンライン 3D-BPP を解決するために提案された DRL ベースの手法とヒューリスティック手法の両方の実用的な堅牢性を調査します。
次に、ロバスト性の重みを効率的に調整して、平均的な環境と最悪の環境でポリシーのパフォーマンスの望ましいバランスを達成できる、調整可能なロバスト強化学習 (AR2L) フレームワークを提案します。
具体的には、目的関数を期待リターンと最悪ケースのリターンの加重和として定式化し、混合ダイナミクスの下でのリターンに関連付けることでパフォーマンスの下限を導出します。
この下限を実現するために、関連する混合ダイナミクスを検索し、対応するポリシーを改善する反復手順を採用します。
この手順を 2 つの一般的な堅牢な敵対的アルゴリズムに統合して、正確かつ近似の AR2L アルゴリズムを開発します。
実験では、AR2L が、名目上のケースで許容可能なレベルのパフォーマンスを維持しながらポリシーの堅牢性を向上させるという意味で多用途であることが実証されています。

要約(オリジナル)

Designing effective policies for the online 3D bin packing problem (3D-BPP) has been a long-standing challenge, primarily due to the unpredictable nature of incoming box sequences and stringent physical constraints. While current deep reinforcement learning (DRL) methods for online 3D-BPP have shown promising results in optimizing average performance over an underlying box sequence distribution, they often fail in real-world settings where some worst-case scenarios can materialize. Standard robust DRL algorithms tend to overly prioritize optimizing the worst-case performance at the expense of performance under normal problem instance distribution. To address these issues, we first introduce a permutation-based attacker to investigate the practical robustness of both DRL-based and heuristic methods proposed for solving online 3D-BPP. Then, we propose an adjustable robust reinforcement learning (AR2L) framework that allows efficient adjustment of robustness weights to achieve the desired balance of the policy’s performance in average and worst-case environments. Specifically, we formulate the objective function as a weighted sum of expected and worst-case returns, and derive the lower performance bound by relating to the return under a mixture dynamics. To realize this lower bound, we adopt an iterative procedure that searches for the associated mixture dynamics and improves the corresponding policy. We integrate this procedure into two popular robust adversarial algorithms to develop the exact and approximate AR2L algorithms. Experiments demonstrate that AR2L is versatile in the sense that it improves policy robustness while maintaining an acceptable level of performance for the nominal case.

arxiv情報

著者 Yuxin Pan,Yize Chen,Fangzhen Lin
発行日 2023-10-06 15:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク