要約
この論文では、ルーティング問題に対する新しい学習検索 (L2S) ソルバーである Neural k-Opt (NeuOpt) を紹介します。
カスタマイズされたアクション因数分解法とカスタマイズされたリカレント デュアル ストリーム デコーダに基づいて、柔軟な k-opt 交換を実行する方法を学習します。
純粋な実行可能性マスキングスキームを回避し、実行可能領域と実行不可能な領域の両方の自律探索を可能にする先駆的な取り組みとして、NeuOpt ポリシーネットワークを実行可能性関連の機能で補完し、報酬を活用するガイド付き実行不可能領域探索 (GIRE) スキームを提案します。
強化学習をより効果的に導くためのシェーピング。
さらに、NeuOpt には、推論中のより多様な検索を可能にする Dynamic Data Augmentation (D2A) が装備されています。
巡回セールスマン問題 (TSP) と静電容量式車両経路指定問題 (CVRP) に関する広範な実験により、NeuOpt が既存の (マスキング ベースの) L2S ソルバーを大幅に上回るだけでなく、構築学習 (L2C) および
学習予測 (L2P) ソルバー。
特に、ニューラル ソルバーが VRP 制約を処理する方法について、新たな視点を提供します。
私たちのコードは https://github.com/yining043/NeuOpt から入手できます。
要約(オリジナル)
In this paper, we present Neural k-Opt (NeuOpt), a novel learning-to-search (L2S) solver for routing problems. It learns to perform flexible k-opt exchanges based on a tailored action factorization method and a customized recurrent dual-stream decoder. As a pioneering work to circumvent the pure feasibility masking scheme and enable the autonomous exploration of both feasible and infeasible regions, we then propose the Guided Infeasible Region Exploration (GIRE) scheme, which supplements the NeuOpt policy network with feasibility-related features and leverages reward shaping to steer reinforcement learning more effectively. Additionally, we equip NeuOpt with Dynamic Data Augmentation (D2A) for more diverse searches during inference. Extensive experiments on the Traveling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP) demonstrate that our NeuOpt not only significantly outstrips existing (masking-based) L2S solvers, but also showcases superiority over the learning-to-construct (L2C) and learning-to-predict (L2P) solvers. Notably, we offer fresh perspectives on how neural solvers can handle VRP constraints. Our code is available: https://github.com/yining043/NeuOpt.
arxiv情報
著者 | Yining Ma,Zhiguang Cao,Yeow Meng Chee |
発行日 | 2023-10-27 16:51:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google