要約
選択的なラベル付けの対象となる動的学習システムは、打ち切り、つまり 1 つ以上の点のサブグループに割り当てられる永続的な否定的な予測を示します。
消費者金融などのアプリケーションでは、これにより、申請者のグループが継続的に拒否され、トレーニング データに入力されないことになります。
この研究では、検閲を形式化し、検閲がどのように発生するかを示し、検出の困難さを強調します。
私たちは検閲に対する保護策、つまり救済策とランダム化された探索を検討しています。どちらも、さもなければ観察されないであろうポイントのラベルを収集することを保証します。
結果として得られる技術により、打ち切りグループの例をトレーニング データに入力し、モデルを修正できるようになります。
私たちの結果は、他の方法では測定できなかった検閲の害を浮き彫りにし、さまざまなデータ生成プロセスにわたる緩和戦略の有効性を実証しています。
要約(オリジナル)
Dynamic learning systems subject to selective labeling exhibit censoring, i.e. persistent negative predictions assigned to one or more subgroups of points. In applications like consumer finance, this results in groups of applicants that are persistently denied and thus never enter into the training data. In this work, we formalize censoring, demonstrate how it can arise, and highlight difficulties in detection. We consider safeguards against censoring – recourse and randomized-exploration – both of which ensure we collect labels for points that would otherwise go unobserved. The resulting techniques allow examples from censored groups to enter into the training data and correct the model. Our results highlight the otherwise unmeasured harms of censoring and demonstrate the effectiveness of mitigation strategies across a range of data generating processes.
arxiv情報
著者 | Jennifer Chien,Margaret Roberts,Berk Ustun |
発行日 | 2023-06-29 16:15:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google