TreeDQN: Learning to minimize Branch-and-Bound tree

要約

組み合わせ最適化問題では、最適な解を見つけるために徹底的な探索が必要です。
混合整数線形計画法の形式で組み合わせ最適化タスクを解決する便利なアプローチは、分岐限定法です。
分岐結合ソルバーは、タスクを 2 つの部分に分割し、整数変数の領域を分割し、それらを再帰的に解決して、ネストされたサブタスクのツリーを生成します。
ソルバーの効率は、分割する変数の選択に使用される分岐ヒューリスティックによって異なります。
本研究では、分岐ヒューリスティックを効率的に学習できる強化学習手法を提案する。
変数選択タスクをツリー マルコフ決定プロセスとみなして、ツリー マルコフ決定プロセスに適応したベルマン演算子が平均値で縮小していることを証明し、強化学習エージェントの修正された学習目標を提案します。
私たちのエージェントは、以前の強化学習手法と比較して、必要なトレーニング データが少なく、より小さなツリーを生成します。

要約(オリジナル)

Combinatorial optimization problems require an exhaustive search to find the optimal solution. A convenient approach to solving combinatorial optimization tasks in the form of Mixed Integer Linear Programs is Branch-and-Bound. Branch-and-Bound solver splits a task into two parts dividing the domain of an integer variable, then it solves them recursively, producing a tree of nested sub-tasks. The efficiency of the solver depends on the branchning heuristic used to select a variable for splitting. In the present work, we propose a reinforcement learning method that can efficiently learn the branching heuristic. We view the variable selection task as a tree Markov Decision Process, prove that the Bellman operator adapted for the tree Markov Decision Process is contracting in mean, and propose a modified learning objective for the reinforcement learning agent. Our agent requires less training data and produces smaller trees compared to previous reinforcement learning methods.

arxiv情報

著者 Dmitry Sorokin,Alexander Kostin
発行日 2023-06-09 14:01:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク