Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

要約

組み合わせ最適化は、現実世界の多くのアプリケーションにとって重要ですが、その (NP) 困難な性質により依然として課題が存在します。
既存のアプローチの中でも、ヒューリスティックは品質とスケーラビリティの間で最適なトレードオフを提供することが多く、産業用途に適しています。
強化学習 (RL) はヒューリスティックを設計するための柔軟なフレームワークを提供しますが、産業用ソルバー内では手作りヒューリスティックに対するその導入はまだ不完全です。
既存の学習された手法には、特定のインスタンスに適応し、利用可能な計算予算を最大限に活用する能力がまだ不足しています。
現在の最良の方法は、事前トレーニングされたポリシーのコレクション、またはデータ非効率な微調整に依存しています。
そのため、予算の制約内で新たに入手可能な情報を十分に活用できていないのです。
これに応えて、メモリを活用して推論時のニューラル ソルバーの適応を改善するアプローチである MEMENTO を紹介します。
MEMENTO を使用すると、以前の決定の結果に基づいてアクションの分布を動的に更新できます。
ベンチマーク問題、特に巡回セールスマンとキャパシテッド・ビークル・ルーティングに対する有効性を検証し、ツリー検索やポリシー勾配の微調整よりも優れていることを実証します。
そして、ダイバーシティベースのソルバーと組み合わせてゼロショットできることを示しています。
すべての RL 自己回帰ソルバーを大規模なインスタンスでトレーニングすることに成功し、MEMENTO が拡張可能でデータ効率が高いことを示しました。
全体として、MEMENTO は 12 の評価タスクのうち 11 で最先端の技術を導入することができます。

要約(オリジナル)

Combinatorial Optimization is crucial to numerous real-world applications, yet still presents challenges due to its (NP-)hard nature. Amongst existing approaches, heuristics often offer the best trade-off between quality and scalability, making them suitable for industrial use. While Reinforcement Learning (RL) offers a flexible framework for designing heuristics, its adoption over handcrafted heuristics remains incomplete within industrial solvers. Existing learned methods still lack the ability to adapt to specific instances and fully leverage the available computational budget. The current best methods either rely on a collection of pre-trained policies, or on data-inefficient fine-tuning; hence failing to fully utilize newly available information within the constraints of the budget. In response, we present MEMENTO, an approach that leverages memory to improve the adaptation of neural solvers at inference time. MEMENTO enables updating the action distribution dynamically based on the outcome of previous decisions. We validate its effectiveness on benchmark problems, in particular Traveling Salesman and Capacitated Vehicle Routing, demonstrating its superiority over tree-search and policy-gradient fine-tuning; and showing it can be zero-shot combined with diversity-based solvers. We successfully train all RL auto-regressive solvers on large instances, and show that MEMENTO can scale and is data-efficient. Overall, MEMENTO enables to push the state-of-the-art on 11 out of 12 evaluated tasks.

arxiv情報

著者 Felix Chalumeau,Refiloe Shabe,Noah De Nicola,Arnu Pretorius,Thomas D. Barrett,Nathan Grinsztajn
発行日 2024-10-07 15:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク