要約
機械学習 (ML) モデルは、意思決定をサポートまたは代替するためにますます使用されています。
熟練した専門家のリソースが限られているアプリケーションでは、ML モデルのパフォーマンスが少なくとも同等の品質であれば、専門家の負担を軽減し、意思決定を自動化することが重要です。
ただし、多くの場合、モデルは事前にトレーニングされて修正されますが、タスクは順番に到着し、その分布が変化する可能性があります。
その場合、意思決定者のそれぞれのパフォーマンスが変化する可能性があり、延期アルゴリズムは適応性を維持する必要があります。
私たちは、このオンライン意思決定問題のコンテキスト バンディット モデルを提案します。
私たちのフレームワークには、予算の制約とさまざまなタイプの部分フィードバック モデルが含まれています。
アルゴリズムの理論上の保証を超えて、現実世界のデータセットで優れたパフォーマンスを達成する効率的な拡張を提案します。
要約(オリジナル)
Machine Learning (ML) models are increasingly used to support or substitute decision making. In applications where skilled experts are a limited resource, it is crucial to reduce their burden and automate decisions when the performance of an ML model is at least of equal quality. However, models are often pre-trained and fixed, while tasks arrive sequentially and their distribution may shift. In that case, the respective performance of the decision makers may change, and the deferral algorithm must remain adaptive. We propose a contextual bandit model of this online decision making problem. Our framework includes budget constraints and different types of partial feedback models. Beyond the theoretical guarantees of our algorithm, we propose efficient extensions that achieve remarkable performance on real-world datasets.
arxiv情報
著者 | Mirabel Reid,Tom Sühr,Claire Vernade,Samira Samadi |
発行日 | 2024-09-30 16:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google