Pointer Networks with Q-Learning for Combinatorial Optimization

要約

ポインター Q ネットワーク (PQN) は、モデルフリーの Q 値ポリシー近似をポインター ネットワーク (Ptr-Net) と統合して、長期的な結果に焦点を当てたアテンションベースのシーケンス生成の最適性を強化するハイブリッド ニューラル アーキテクチャです。

この統合は、組み合わせ最適化 (CO) タスク、特に私たちの研究の焦点である巡回セールスマン問題 (TSP) を解決するのに特に効果的であることが証明されています。
私たちは、PQN と互換性のあるマルコフ決定プロセス (MDP) を定義することでこの課題に対処します。これには、LSTM ベースのリカレント ニューラル ネットワークによる反復グラフの埋め込み、エンコード、デコードが含まれます。
このプロセスでは、コンテキスト ベクトルを生成し、生の注意スコアを計算します。このスコアは、ソフトマックスを適用する前に、すべての利用可能な状態とアクションのペアに対して計算された Q 値によって動的に調整されます。
結果として得られる注意ベクトルは、PQN の探索と活用の動的適応性に左右されて選択されるアクションのアクション分布として利用されます。
私たちの経験的な結果は、このアプローチの有効性を示しており、不安定な環境でもモデルをテストしています。

要約(オリジナル)

We introduce the Pointer Q-Network (PQN), a hybrid neural architecture that integrates model-free Q-value policy approximation with Pointer Networks (Ptr-Nets) to enhance the optimality of attention-based sequence generation, focusing on long-term outcomes. This integration proves particularly effective in solving combinatorial optimization (CO) tasks, especially the Travelling Salesman Problem (TSP), which is the focus of our study. We address this challenge by defining a Markov Decision Process (MDP) compatible with PQN, which involves iterative graph embedding, encoding and decoding by an LSTM-based recurrent neural network. This process generates a context vector and computes raw attention scores, which are dynamically adjusted by Q-values calculated for all available state-action pairs before applying softmax. The resulting attention vector is utilized as an action distribution, with actions selected hinged to exploration-exploitation dynamic adaptibility of PQN. Our empirical results demonstrate the efficacy of this approach, also testing the model in unstable environments.

arxiv情報

著者 Alessandro Barro
発行日 2024-10-24 17:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク