Time-Varying Propensity Score to Bridge the Gap between the Past and Present

要約

データは時間の経過とともに進化するため、機械学習モデルを現実世界に展開するのは困難です。
データが恣意的に進化する場合、どのモデルも機能しませんが、これらの変化に何らかのパターンがある場合は、それに対処する方法を設計できる可能性があります。
このペーパーでは、データが徐々に進化する状況について説明します。
データの分布における段階的な変化を検出できる時間変化傾向スコアを導入します。これにより、過去のデータを選択的にサンプリングしてモデルを更新できます。これには、標準傾向スコアのような過去の類似データだけでなく、
過去にも同様の進化を遂げました。
時間変化傾向スコアは非常に一般的です。私たちはそれを実装するさまざまな方法を実証し、データが一連の段階的なシフトを受ける教師あり学習 (画像分類問題など) から強化学習タスクに至るまでのさまざまな問題で評価します (
例: ロボット操作や継続的制御など)、ポリシーやタスクの変更に応じてデータも変化します。

要約(オリジナル)

Real-world deployment of machine learning models is challenging because data evolves over time. While no model can work when data evolves in an arbitrary fashion, if there is some pattern to these changes, we might be able to design methods to address it. This paper addresses situations when data evolves gradually. We introduce a time-varying propensity score that can detect gradual shifts in the distribution of data which allows us to selectively sample past data to update the model — not just similar data from the past like that of a standard propensity score but also data that evolved in a similar fashion in the past. The time-varying propensity score is quite general: we demonstrate different ways of implementing it and evaluate it on a variety of problems ranging from supervised learning (e.g., image classification problems) where data undergoes a sequence of gradual shifts, to reinforcement learning tasks (e.g., robotic manipulation and continuous control) where data shifts as the policy or the task changes.

arxiv情報

著者 Rasool Fakoor,Jonas Mueller,Zachary C. Lipton,Pratik Chaudhari,Alexander J. Smola
発行日 2023-10-05 17:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク