PriorBoost: An Adaptive Algorithm for Learning from Aggregate Responses

要約

この研究では、集計された応答から学習するアルゴリズムを研究します。
私たちは、イベントレベルの損失関数の集計セット (文献ではバッグと呼ばれます) の構築に焦点を当てます。
線形回帰と一般化線形モデル (GLM) について、最適バギング問題は 1 次元のサイズ制約のある $k$-means クラスタリングに帰着することを証明します。
さらに、ランダムなバッグよりも厳選されたバッグを使用する利点を理論的に定量化します。
次に、PriorBoost アルゴリズムを提案します。これは、モデルの品質を向上させるために、(観測されていない) 個々の応答に関してますます均一になるサンプルのバッグを適応的に形成します。
私たちは集約学習のためのラベル差分プライバシーを研究しており、非適応アルゴリズムとはまったく対照的に、PriorBoost がイベントレベルの予測に対して最適なモデル品質を定期的に達成していることを示す広範な実験も提供しています。

要約(オリジナル)

This work studies algorithms for learning from aggregate responses. We focus on the construction of aggregation sets (called bags in the literature) for event-level loss functions. We prove for linear regression and generalized linear models (GLMs) that the optimal bagging problem reduces to one-dimensional size-constrained $k$-means clustering. Further, we theoretically quantify the advantage of using curated bags over random bags. We then propose the PriorBoost algorithm, which adaptively forms bags of samples that are increasingly homogeneous with respect to (unobserved) individual responses to improve model quality. We study label differential privacy for aggregate learning, and we also provide extensive experiments showing that PriorBoost regularly achieves optimal model quality for event-level predictions, in stark contrast to non-adaptive algorithms.

arxiv情報

著者 Adel Javanmard,Matthew Fahrbach,Vahab Mirrokni
発行日 2024-02-07 16:06:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク