Scaling Combinatorial Optimization Neural Improvement Heuristics with Online Search and Adaptation

要約

深層強化学習 (DRL) ベースの組み合わせ最適化改善ヒューリスティックのためのビーム検索戦略である Limited Rollout Beam Search (LRBS) を紹介します。
LRBS は、ユークリッド巡回販売員問題に関する事前トレーニング済みモデルを利用することで、流通パフォーマンスとより大きな問題インスタンスへの汎化の両方を大幅に強化し、既存の改善ヒューリスティックを上回る最適性ギャップを達成し、最先端の構築的手法とのギャップを狭めます。
また、結果を検証するために、分析を 2 つの集配 TSP バリアントに拡張しました。
最後に、事前トレーニングされた改善ポリシーをオフラインおよびオンラインに適応させる検索戦略を採用し、検索パフォーマンスの向上につながり、建設的なヒューリスティックに対する最近の適応手法を上回ります。

要約(オリジナル)

We introduce Limited Rollout Beam Search (LRBS), a beam search strategy for deep reinforcement learning (DRL) based combinatorial optimization improvement heuristics. Utilizing pre-trained models on the Euclidean Traveling Salesperson Problem, LRBS significantly enhances both in-distribution performance and generalization to larger problem instances, achieving optimality gaps that outperform existing improvement heuristics and narrowing the gap with state-of-the-art constructive methods. We also extend our analysis to two pickup and delivery TSP variants to validate our results. Finally, we employ our search strategy for offline and online adaptation of the pre-trained improvement policy, leading to improved search performance and surpassing recent adaptive methods for constructive heuristics.

arxiv情報

著者 Federico Julian Camerota Verdù,Lorenzo Castelli,Luca Bortolussi
発行日 2024-12-13 14:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク