Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming

要約

ドメインに依存しない動的プログラミング(DIDP)は、組み合わせ最適化のための動的プログラミングに基づく状態空間検索パラダイムです。
現在の実装では、DIDPはユーザー定義のデュアル境界を使用して検索をガイドします。
補強学習(RL)は、組み合わせの最適化問題にますます適用されており、Bellman方程式と状態ベースの遷移システムで表されるDPといくつかの重要な構造を共有しています。
補強学習を使用してヒューリスティック機能を取得して、DIDPで検索をガイドすることを提案します。
2つのRLベースのガイダンスアプローチを開発します。ディープQネットワークを使用した価値ベースのガイダンスと、近位ポリシーの最適化を使用したポリシーベースのガイダンスです。
私たちの実験は、RLベースのガイダンスが、同じ数のノード拡張を備えた標準的なDIDPと問題固有の貪欲なヒューリスティックを大幅に上回ることを示しています。
さらに、ノード評価時間が長いにもかかわらず、RLガイダンスは、4つのベンチマークドメインのうち3つで標準DIDPよりもランタイムパフォーマンスが向上します。

要約(オリジナル)

Domain-Independent Dynamic Programming (DIDP) is a state-space search paradigm based on dynamic programming for combinatorial optimization. In its current implementation, DIDP guides the search using user-defined dual bounds. Reinforcement learning (RL) is increasingly being applied to combinatorial optimization problems and shares several key structures with DP, being represented by the Bellman equation and state-based transition systems. We propose using reinforcement learning to obtain a heuristic function to guide the search in DIDP. We develop two RL-based guidance approaches: value-based guidance using Deep Q-Networks and policy-based guidance using Proximal Policy Optimization. Our experiments indicate that RL-based guidance significantly outperforms standard DIDP and problem-specific greedy heuristics with the same number of node expansions. Further, despite longer node evaluation times, RL guidance achieves better run-time performance than standard DIDP on three of four benchmark domains.

arxiv情報

著者 Minori Narita,Ryo Kuroiwa,J. Christopher Beck
発行日 2025-03-20 17:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク