Learn to Tour: Operator Design For Solution Feasibility Mapping in Pickup-and-delivery Traveling Salesman Problem

要約

本論文は、巡回セールスマン問題(TSP)の特殊なクラスである集配TSP(PDTSP)に対する学習法を開発することを目的とする。
-配信ノード。
ここでの 1 対 1 とは、区別できない商品がどのノードにも配送できるのとは対照的に、輸送される人や商品が指定された集荷ノードと配送ノードのペアに関連付けられていることを意味します。
PDTSP では、各ピックアップ ノードは対応する配送ノードの前に訪問する必要があるという優先順位の制約を満たす必要があります。
PDTSP の従来のオペレーション リサーチ (OR) アルゴリズムは、大規模な問題に拡張することが困難です。
最近、強化学習 (RL) が TSP に適用されています。
基本的な考え方は、ソリューション スペースで訪問シーケンスを探索し、評価することです。
ただし、このアプローチは、優先順位制約に違反する多くの実行不可能な解を潜在的に評価する必要があるため、計算効率が低下する可能性があります。
実行可能な空間内での解の検索を制限するために、実行不可能な解の空間の探索に時間を費やすことなく、常に 1 つの実行可能な解を別の実行可能な解にマッピングする演算子を利用します。
このような演算子は、RL フレームワークで PDTSP を解決するためのポリシーとして評価され、選択されます。
従来の OR アルゴリズムと既存の学習方法を含む、私たちの方法とベースラインを比較します。
結果は、私たちのアプローチがベースラインよりも短いツアーを見つけることができることを示しています。

要約(オリジナル)

This paper aims to develop a learning method for a special class of traveling salesman problems (TSP), namely, the pickup-and-delivery TSP (PDTSP), which finds the shortest tour along a sequence of one-to-one pickup-and-delivery nodes. One-to-one here means that the transported people or goods are associated with designated pairs of pickup and delivery nodes, in contrast to that indistinguishable goods can be delivered to any nodes. In PDTSP, precedence constraints need to be satisfied that each pickup node must be visited before its corresponding delivery node. Classic operations research (OR) algorithms for PDTSP are difficult to scale to large-sized problems. Recently, reinforcement learning (RL) has been applied to TSPs. The basic idea is to explore and evaluate visiting sequences in a solution space. However, this approach could be less computationally efficient, as it has to potentially evaluate many infeasible solutions of which precedence constraints are violated. To restrict solution search within a feasible space, we utilize operators that always map one feasible solution to another, without spending time exploring the infeasible solution space. Such operators are evaluated and selected as policies to solve PDTSPs in an RL framework. We make a comparison of our method and baselines, including classic OR algorithms and existing learning methods. Results show that our approach can find tours shorter than baselines.

arxiv情報

著者 Bowen Fang,Xu Chen,Xuan Di
発行日 2024-04-17 15:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク