Neural Combinatorial Optimization via Preference Optimization

要約

神経組み合わせ最適化（NCO）は、NPハードの問題に対する有望なアプローチとして浮上しています。
ただし、RLベースの方法が一般的には、まばらな報酬と過少使用のソリューションにより、サンプル効率が低いことに悩まされています。
客観的な値を介してソリューションの好みを活用するトレーニングパラダイムであるコンビナトリアル最適化（POCO）の優先最適化を提案します。
（1）解決策をよりよく調査および活用するための効率的な選好ペア構造、および（2）客観的な違いを介して適応的に勾配をスケーリングし、報酬モデルまたは参照ポリシーへの依存を削除する新しい損失関数。
ジョブショップスケジューリング（JSP）、巡回セールスマン（TSP）、および柔軟なジョブショップスケジューリング（FJSP）の実験は、Pocoが最先端のニューラル方法を上回ることを示しており、効率的な推論で最適性のギャップを印象的に減らします。
Pocoはアーキテクチャに依存しており、既存のNCOモデルとのシームレスな統合を可能にし、組み合わせ最適化の原則的なフレームワークとして優先最適化を確立します。

要約(オリジナル)

Neural Combinatorial Optimization (NCO) has emerged as a promising approach for NP-hard problems. However, prevailing RL-based methods suffer from low sample efficiency due to sparse rewards and underused solutions. We propose Preference Optimization for Combinatorial Optimization (POCO), a training paradigm that leverages solution preferences via objective values. It introduces: (1) an efficient preference pair construction for better explore and exploit solutions, and (2) a novel loss function that adaptively scales gradients via objective differences, removing reliance on reward models or reference policies. Experiments on Job-Shop Scheduling (JSP), Traveling Salesman (TSP), and Flexible Job-Shop Scheduling (FJSP) show POCO outperforms state-of-the-art neural methods, reducing optimality gaps impressively with efficient inference. POCO is architecture-agnostic, enabling seamless integration with existing NCO models, and establishes preference optimization as a principled framework for combinatorial optimization.

arxiv情報

著者	Zijun Liao,Jinbiao Chen,Debing Wang,Zizhen Zhang,Jiahai Wang
発行日	2025-03-10 17:45:30+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Neural Combinatorial Optimization via Preference Optimization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー