要約
最近の深い強化学習方法は、それぞれが特定の重量ベクトルに関連付けられている複数のサブ問題に分解することにより、多目的組み合わせ最適化問題(MOCOPS)を解決することで顕著な成功を収めています。
ただし、これらの方法は通常、すべてのサブ問題を均等に扱い、単一のモデルを使用してそれらを解決し、ソリューション空間の効果的な調査を妨げ、したがって最適ではないパフォーマンスにつながります。
制限を克服するために、サブ問題のモデル構造の適応的選択を可能にする新しいプラグアンドプレイフレームワークであるPoccoを提案します。
具体的には、サブ問題を特殊なニューラルアーキテクチャにルーティングする条件付き計算ブロックを設計します。
さらに、勝利と紛失のソリューションの間でペアワイズの好みを学習する優先駆動型の最適化アルゴリズムを提案します。
Poccoの有効性と汎用性を、Mocopsの2つの最先端のニューラル方法に適用することにより評価します。
4つの古典的なMOCOPベンチマークにわたる実験結果は、その重要な優位性と強力な一般化を示しています。
要約(オリジナル)
Recent deep reinforcement learning methods have achieved remarkable success in solving multi-objective combinatorial optimization problems (MOCOPs) by decomposing them into multiple subproblems, each associated with a specific weight vector. However, these methods typically treat all subproblems equally and solve them using a single model, hindering the effective exploration of the solution space and thus leading to suboptimal performance. To overcome the limitation, we propose POCCO, a novel plug-and-play framework that enables adaptive selection of model structures for subproblems, which are subsequently optimized based on preference signals rather than explicit reward values. Specifically, we design a conditional computation block that routes subproblems to specialized neural architectures. Moreover, we propose a preference-driven optimization algorithm that learns pairwise preferences between winning and losing solutions. We evaluate the efficacy and versatility of POCCO by applying it to two state-of-the-art neural methods for MOCOPs. Experimental results across four classic MOCOP benchmarks demonstrate its significant superiority and strong generalization.
arxiv情報
著者 | Mingfeng Fan,Jianan Zhou,Yifeng Zhang,Yaoxin Wu,Jinbiao Chen,Guillaume Adrien Sartoretti |
発行日 | 2025-06-10 15:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google