要約
この論文では、Min-Max Multiple Traveling Salesman 問題 (MTSP) について考察します。この問題では、最長のツアーの長さを最小限に抑えながら、すべての都市をまとめて訪問する、各エージェントに 1 つのツアーのセットを見つけることが目標となります。
MTSP は広く研究されていますが、その NP 耐性により、大規模な問題に対して最適に近い解を得るのは依然として困難です。
データ駆動型手法における最近の取り組みは、入手が困難な監視の必要性や、勾配推定のばらつきが大きい問題に直面しており、収束が遅く、最適解が非常に低くなるという課題に直面しています。
命令型学習 (IL) の概念を使用して、MTSP をバイレベル最適化問題として再定式化することで、これらの問題に対処します。
これには、MTSP を複数の単一エージェント巡回セールスマン問題 (TSP) に分解する割り当てネットワークの導入が含まれます。
これらの TSP ソリューションからの最長ツアーは、割り当てネットワークの自己監視に使用され、その結果、命令型 MTSP (iMTSP) と呼ばれる、新しい自己監視型のバイレベルのエンドツーエンド学習フレームワークが実現します。
さらに、最適化中に高分散勾配の問題に取り組むために、制御変量ベースの勾配推定アルゴリズムを導入します。
私たちの実験では、これらの革新的な設計により、特に大規模な問題 (例: 1000 都市) において、勾配推定器が高度な強化学習ベースラインよりも 20% 早く収束し、Google OR-Tools MTSP ソルバーと比較してツアーの長さを最大 80% 短縮できることがわかりました。
および 15 人のエージェント)。
要約(オリジナル)
This paper considers a Min-Max Multiple Traveling Salesman Problem (MTSP), where the goal is to find a set of tours, one for each agent, to collectively visit all the cities while minimizing the length of the longest tour. Though MTSP has been widely studied, obtaining near-optimal solutions for large-scale problems is still challenging due to its NP-hardness. Recent efforts in data-driven methods face challenges of the need for hard-to-obtain supervision and issues with high variance in gradient estimations, leading to slow convergence and highly suboptimal solutions. We address these issues by reformulating MTSP as a bilevel optimization problem, using the concept of imperative learning (IL). This involves introducing an allocation network that decomposes the MTSP into multiple single-agent traveling salesman problems (TSPs). The longest tour from these TSP solutions is then used to self-supervise the allocation network, resulting in a new self-supervised, bilevel, end-to-end learning framework, which we refer to as imperative MTSP (iMTSP). Additionally, to tackle the high-variance gradient issues during the optimization, we introduce a control variate-based gradient estimation algorithm. Our experiments showed that these innovative designs enable our gradient estimator to converge 20% faster than the advanced reinforcement learning baseline and find up to 80% shorter tour length compared with Google OR-Tools MTSP solver, especially in large-scale problems (e.g. 1000 cities and 15 agents).
arxiv情報
著者 | Yifan Guo,Zhongqiang Ren,Chen Wang |
発行日 | 2024-05-01 02:26:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google