Fair Active Learning: Solving the Labeling Problem in Insurance

要約

このペーパーでは、保険業界における機械学習モデルの広範な使用から生じる重大な障害について、特に公平性の促進に焦点を当てて取り上げます。
最初の課題は、ラベル付けの労力を軽減し、アクティブ ラーニング手法を通じてデータの関連性を強調しながら、保険においてラベル付けされていないデータを効果的に活用することにあります。
この論文では、さまざまなアクティブ ラーニング サンプリング手法を検討し、合成および実際の保険データセットの両方に対するそれらの影響を評価します。
この分析は、機械学習モデルが基礎となるデータに見られるバイアスや差別を再現する可能性があるため、公平なモデル推論を達成することの難しさを浮き彫りにしています。
これらの相互に関連する課題に取り組むために、この論文では革新的な公平なアクティブ ラーニング手法を紹介します。
提案されたアプローチは、有益で公平なインスタンスをサンプリングし、保険データセットの数値実験で確認されたように、モデルの予測パフォーマンスと公平性の間で良好なバランスを実現します。

要約(オリジナル)

This paper addresses significant obstacles that arise from the widespread use of machine learning models in the insurance industry, with a specific focus on promoting fairness. The initial challenge lies in effectively leveraging unlabeled data in insurance while reducing the labeling effort and emphasizing data relevance through active learning techniques. The paper explores various active learning sampling methodologies and evaluates their impact on both synthetic and real insurance datasets. This analysis highlights the difficulty of achieving fair model inferences, as machine learning models may replicate biases and discrimination found in the underlying data. To tackle these interconnected challenges, the paper introduces an innovative fair active learning method. The proposed approach samples informative and fair instances, achieving a good balance between model predictive performance and fairness, as confirmed by numerical experiments on insurance datasets.

arxiv情報

著者 Romuald Elie,Caroline Hillairet,François Hu,Marc Juillard
発行日 2024-05-20 15:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク