要約
タイトル:安全なオンライン学習における未ランク付けアイテムの探索の再順位付けの探求
要約:
– オンラインランキング学習 (OLTR) のバンディットアルゴリズムは、使用者のフィードバックを利用して長期的な収益を最大化することを目的としています。しかし、実用的な観点からは、このようなアルゴリズムは探索による積極的な影響によって、使用者の体験に悪影響を及ぼすリスクが高いため、安全性が求められています。
– 本論文では、既に受け入れ可能な品質が保証されている元のランキングの品質を段階的に向上させることで安全な探索を行うOLTRアルゴリズムを提案しています。
– 我々は、Kullback-Leibler upper confidence bounds (KL-UCB) を基に楽観的に未ランク付けアイテムを選択して探索を行い、安全に品物を再順位付けする手法を提案しています。
– 実験により、提案アルゴリズムが安全性違反のないベースラインに比べて長期的な後悔を改善することを示しました。
要約(オリジナル)
Bandit algorithms for online learning to rank (OLTR) problems often aim to maximize long-term revenue by utilizing user feedback. From a practical point of view, however, such algorithms have a high risk of hurting user experience due to their aggressive exploration. Thus, there has been a rising demand for safe exploration in recent years. One approach to safe exploration is to gradually enhance the quality of an original ranking that is already guaranteed acceptable quality. In this paper, we propose a safe OLTR algorithm that efficiently exchanges one of the items in the current ranking with an item outside the ranking (i.e., an unranked item) to perform exploration. We select an unranked item optimistically to explore based on Kullback-Leibler upper confidence bounds (KL-UCB) and safely re-rank the items including the selected one. Through experiments, we demonstrate that the proposed algorithm improves long-term regret from baselines without any safety violation.
arxiv情報
著者 | Hiroaki Shiino,Kaito Ariu,Kenshi Abe,Togashi Riku |
発行日 | 2023-05-02 04:39:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI