BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization

要約

神経組み合わせ最適化(NCO)は、NPハードの問題に対する有望なアプローチとして浮上しています。
ただし、RLベースの方法が一般的には、まばらな報酬と過少使用のソリューションにより、サンプル効率が低いことに悩まされています。
客観的な値を介してソリューションの好みを活用するトレーニングパラダイムである、ベストアンカーと客観的ガイド付き選好最適化(BOPO)を提案します。
(1)ソリューションをより適切に調査および活用するためのベストアンカーの好みのペア構造、および(2)客観的な違いを介して勾配を適応的にスケーリングし、報酬モデルまたは参照ポリシーへの依存を除去する客観的なガイド付きペアワイズ損失関数。
ジョブショップスケジューリングの問題(JSP)、巡回セールスマンの問題(TSP)、および柔軟なジョブショップスケジューリング問題(FJSP)の実験は、Bopoが最先端のニューラル方法を上回り、効率的な推論で最適性のギャップを印象的に減らすことを示しています。
Bopoはアーキテクチャに依存しており、既存のNCOモデルとのシームレスな統合を可能にし、組み合わせ最適化の原則的なフレームワークとして優先最適化を確立します。

要約(オリジナル)

Neural Combinatorial Optimization (NCO) has emerged as a promising approach for NP-hard problems. However, prevailing RL-based methods suffer from low sample efficiency due to sparse rewards and underused solutions. We propose Best-anchored and Objective-guided Preference Optimization (BOPO), a training paradigm that leverages solution preferences via objective values. It introduces: (1) a best-anchored preference pair construction for better explore and exploit solutions, and (2) an objective-guided pairwise loss function that adaptively scales gradients via objective differences, removing reliance on reward models or reference policies. Experiments on Job-shop Scheduling Problem (JSP), Traveling Salesman Problem (TSP), and Flexible Job-shop Scheduling Problem (FJSP) show BOPO outperforms state-of-the-art neural methods, reducing optimality gaps impressively with efficient inference. BOPO is architecture-agnostic, enabling seamless integration with existing NCO models, and establishes preference optimization as a principled framework for combinatorial optimization.

arxiv情報

著者 Zijun Liao,Jinbiao Chen,Debing Wang,Zizhen Zhang,Jiahai Wang
発行日 2025-06-02 15:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク