Offline Model-Based Optimization by Learning to Rank

要約

オフラインモデルベース最適化(MBO)は、固定された、事前に収集された設計とそれに対応するスコアのデータセットのみを使用して、ブラックボックス関数を最大化する設計を特定することを目的としています。オフラインMBOの一般的なアプローチは、平均二乗誤差(MSE)を最小化することによって回帰ベースのサロゲートモデルを訓練し、その後、異なる最適化手法(例えば、勾配上昇)によってこのサロゲートモデル内で最良の設計を見つけることです。しかし、重大な課題は、分布外誤差のリスクである。すなわち、サロゲート・モデルは一般的にスコアを過大評価し、最適化器を最適でない領域へとミスリードする可能性がある。先行研究では、正則化技術やアンサンブル学習を用いてモデルの頑健性を高めるなど、様々な方法でこの問題への対処が試みられているが、依然としてこの問題は残っている。本論文では、MSEを用いて訓練された回帰モデルは、オフラインMBOの主要な目的である、そのスコアを正確に予測することよりも、有望なデザインを選択することにうまく合致していないと主張する。注目すべきは、もしサロゲートモデルが相対的なスコア関係に基づいて候補デザインの順序を維持することができれば、正確な予測なしでも最良のデザインを生み出すことができるということである。これを検証するために、最終的な設計の品質とMSEの関係を比較する実験を行ったところ、相関関係は実に弱いことがわかった。対照的に、秩序維持の品質を測定する指標は、有意に強い相関を示す。この観察に基づき、我々は、ランク付け学習技術を活用して、相対的なスコアに基づいて有望な設計に優先順位を付ける、ランク付けベースのモデルの学習を提案する。我々は、順位付け損失に対する汎化誤差が十分に境界可能であることを示す。多様なタスクにわたる実証結果から、我々の提案するランキングベースモデルの性能が、既存の20の手法よりも優れていることを示す。

要約(オリジナル)

Offline model-based optimization (MBO) aims to identify a design that maximizes a black-box function using only a fixed, pre-collected dataset of designs and their corresponding scores. A common approach in offline MBO is to train a regression-based surrogate model by minimizing mean squared error (MSE) and then find the best design within this surrogate model by different optimizers (e.g., gradient ascent). However, a critical challenge is the risk of out-of-distribution errors, i.e., the surrogate model may typically overestimate the scores and mislead the optimizers into suboptimal regions. Prior works have attempted to address this issue in various ways, such as using regularization techniques and ensemble learning to enhance the robustness of the model, but it still remains. In this paper, we argue that regression models trained with MSE are not well-aligned with the primary goal of offline MBO, which is to select promising designs rather than to predict their scores precisely. Notably, if a surrogate model can maintain the order of candidate designs based on their relative score relationships, it can produce the best designs even without precise predictions. To validate it, we conduct experiments to compare the relationship between the quality of the final designs and MSE, finding that the correlation is really very weak. In contrast, a metric that measures order-maintaining quality shows a significantly stronger correlation. Based on this observation, we propose learning a ranking-based model that leverages learning to rank techniques to prioritize promising designs based on their relative scores. We show that the generalization error on ranking loss can be well bounded. Empirical results across diverse tasks demonstrate the superior performance of our proposed ranking-based models than twenty existing methods.

arxiv情報

著者 Rong-Xi Tan,Ke Xue,Shen-Huan Lyu,Haopu Shang,Yao Wang,Yaoyuan Wang,Sheng Fu,Chao Qian
発行日 2025-03-03 11:38:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク