要約
巡回購入者問題(TPP)は組合せ最適化問題の一つであり、その応用範囲は広い。しかし、TPPは経路探索と購買計画を同時に扱うことが一般的であるため、計算コストの高い厳密解法や、設計は洗練されているが性能は限定的なヒューリスティック解法が用いられている。これに対して我々は、深層強化学習(DRL)に基づく新しいアプローチを提案する。これは、ルート構築と購買計画を別々に扱い、グローバルな視点から解を評価・最適化する。本アプローチの主要な構成要素には、市場と商品の関係を捉えるためのTPPの二部グラフ表現と、二部グラフから情報を抽出し、それを用いてルートを逐次構築するポリシー・ネットワークが含まれる。本フレームワークの大きな利点は、ポリシーネットワークを用いて効率的にルートを構築し、ルート決定後は線形計画法により関連する購買計画を容易に導出できること、また、DRLを活用することで、グローバルな解目標を最適化するようにポリシーネットワークを学習できることである。さらに、メタ学習戦略を導入することで、ポリシーネットワークは大規模なTPPインスタンスに対して安定的に学習させることができ、様々なサイズや分布のインスタンスに対して良好に汎化することができる。様々な合成TPPインスタンスとTPPLIBベンチマークを用いた実験により、我々のDRLベースのアプローチが、確立されたTPPヒューリスティックを大幅に上回ることが実証された。
要約(オリジナル)
The traveling purchaser problem (TPP) is an important combinatorial optimization problem with broad applications. Due to the coupling between routing and purchasing, existing works on TPPs commonly address route construction and purchase planning simultaneously, which, however, leads to exact methods with high computational cost and heuristics with sophisticated design but limited performance. In sharp contrast, we propose a novel approach based on deep reinforcement learning (DRL), which addresses route construction and purchase planning separately, while evaluating and optimizing the solution from a global perspective. The key components of our approach include a bipartite graph representation for TPPs to capture the market-product relations, and a policy network that extracts information from the bipartite graph and uses it to sequentially construct the route. One significant benefit of our framework is that we can efficiently construct the route using the policy network, and once the route is determined, the associated purchasing plan can be easily derived through linear programming, while, leveraging DRL, we can train the policy network to optimize the global solution objective. Furthermore, by introducing a meta-learning strategy, the policy network can be trained stably on large-sized TPP instances, and generalize well across instances of varying sizes and distributions, even to much larger instances that are never seen during training. Experiments on various synthetic TPP instances and the TPPLIB benchmark demonstrate that our DRL-based approach can significantly outperform well-established TPP heuristics, reducing the optimality gap by 40%-90%, and also showing an advantage in runtime, especially on large-sized instances.
arxiv情報
著者 | Haofeng Yuan,Rongping Zhu,Wanlu Yang,Shiji Song,Keyou You,Yuli Zhang,C. L. Philip Chen |
発行日 | 2024-08-02 15:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |