TreeDQN: Learning to minimize Branch-and-Bound tree


分岐結合ソルバーは、タスクを 2 つの部分に分割し、整数変数の領域を分割し、それらを再帰的に解決して、ネストされたサブタスクのツリーを生成します。
変数選択タスクをツリー マルコフ決定プロセスとみなして、ツリー マルコフ決定プロセスに適応したベルマン演算子が平均値で縮小していることを証明し、強化学習エージェントの修正された学習目標を提案します。
私たちのエージェントは、以前の強化学習手法と比較して、必要なトレーニング データが少なく、より小さなツリーを生成します。


Combinatorial optimization problems require an exhaustive search to find the optimal solution. A convenient approach to solving combinatorial optimization tasks in the form of Mixed Integer Linear Programs is Branch-and-Bound. Branch-and-Bound solver splits a task into two parts dividing the domain of an integer variable, then it solves them recursively, producing a tree of nested sub-tasks. The efficiency of the solver depends on the branchning heuristic used to select a variable for splitting. In the present work, we propose a reinforcement learning method that can efficiently learn the branching heuristic. We view the variable selection task as a tree Markov Decision Process, prove that the Bellman operator adapted for the tree Markov Decision Process is contracting in mean, and propose a modified learning objective for the reinforcement learning agent. Our agent requires less training data and produces smaller trees compared to previous reinforcement learning methods.


著者 Dmitry Sorokin,Alexander Kostin
発行日 2023-06-09 14:01:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, math.OC パーマリンク