Fast Slate Policy Optimization: Going Beyond Plackett-Luce

要約

大規模な機械学習システムのますます重要な構成要素は、元のスレートに基づいています。
クエリが与えられた項目の順序付きリスト。
このテクノロジーのアプリケーションには、検索、情報検索、および推奨システムが含まれます。
アクション スペースが大きい場合、オンライン クエリを迅速に完了するために、意思決定システムは特定の構造に制限されます。
この論文では、任意の報酬関数を与えた場合のこれらの大規模な意思決定システムの最適化について説明します。
我々は、この学習問題を政策最適化フレームワークに投影し、意思決定機能の新たな緩和から生まれた新しいクラスの政策を提案します。
これにより、大規模なアクション空間にまで拡張できる、シンプルでありながら効率的な学習アルゴリズムが実現します。
私たちの方法を一般的に採用されているプラ​​ケット・ルース・ポリシー・クラスと比較し、数百万オーダーのアクション・スペース・サイズの問題に対する私たちのアプローチの有効性を実証します。

要約(オリジナル)

An increasingly important building block of large scale machine learning systems is based on returning slates; an ordered lists of items given a query. Applications of this technology include: search, information retrieval and recommender systems. When the action space is large, decision systems are restricted to a particular structure to complete online queries quickly. This paper addresses the optimization of these large scale decision systems given an arbitrary reward function. We cast this learning problem in a policy optimization framework and propose a new class of policies, born from a novel relaxation of decision functions. This results in a simple, yet efficient learning algorithm that scales to massive action spaces. We compare our method to the commonly adopted Plackett-Luce policy class and demonstrate the effectiveness of our approach on problems with action space sizes in the order of millions.

arxiv情報

著者 Otmane Sakhi,David Rohde,Nicolas Chopin
発行日 2023-12-29 11:26:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, stat.ML パーマリンク