Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It

要約

レコメンダーシステムや個別化医療などの文献において、オフポリシー評価への関心が高まっています。
これまでのところ、偏ったログデータに基づいて反事実的な政策の有効性を正確に推定することを目的とした推定ツールの開発において、大きな進歩が見られました。
ただし、これらの推定量は、意思決定ポリシーの価値を評価するためだけでなく、大きな候補空間から最適なハイパーパラメーターを検索するためにも使用される場合が多くあります。
この研究では、オフポリシー学習のための後者のハイパーパラメータ最適化 (HPO) タスクを調査します。
我々は、一般化パフォーマンスの不偏推定量を HPO の代理目的として素朴に適用すると、単に一般化パフォーマンスが大幅に過大評価されているハイパーパラメータを追求するだけで、予期せぬ失敗を引き起こす可能性があることを経験的に示しています。
次に、前述の問題に同時に対処するために、典型的な HPO 手順に対する単純で計算効率の高い修正を提案します。
経験的調査により、典型的な手順が著しく失敗する状況において、私たちが提案する HPO アルゴリズムの有効性が実証されています。

要約(オリジナル)

There has been a growing interest in off-policy evaluation in the literature such as recommender systems and personalized medicine. We have so far seen significant progress in developing estimators aimed at accurately estimating the effectiveness of counterfactual policies based on biased logged data. However, there are many cases where those estimators are used not only to evaluate the value of decision making policies but also to search for the best hyperparameters from a large candidate space. This work explores the latter hyperparameter optimization (HPO) task for off-policy learning. We empirically show that naively applying an unbiased estimator of the generalization performance as a surrogate objective in HPO can cause an unexpected failure, merely pursuing hyperparameters whose generalization performance is greatly overestimated. We then propose simple and computationally efficient corrections to the typical HPO procedure to deal with the aforementioned issues simultaneously. Empirical investigations demonstrate the effectiveness of our proposed HPO algorithm in situations where the typical procedure fails severely.

arxiv情報

著者 Yuta Saito,Masahiro Nomura
発行日 2024-04-23 14:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク