Example-based Explanations for Random Forests using Machine Unlearning

要約

デシジョン ツリーやランダム フォレストなどのツリーベースの機械学習モデルは、主に教師あり学習タスクでの予測能力と解釈の容易さにより、分類タスクで大きな成功を収めています。
これらのモデルは、その人気と威力にもかかわらず、予期せぬ結果や差別的な結果を生み出すことが判明しています。
ほとんどのタスクで彼らが圧倒的な成功を収めていることを考えると、彼らの予期せぬ差別的行動の原因を特定することは興味深いことです。
ただし、公平性の観点からツリーベースの分類器を理解してデバッグすることについては、これまであまり研究が行われていませんでした。
FairDebugger は、機械の非学習研究における最近の進歩を利用して、ランダム フォレスト分類器の結果における公平性違反のインスタンスの原因となっているトレーニング データ サブセットを特定するシステムです。
FairDebugger は、モデルの不公平性に関する上位 $k$ の説明を (一貫したトレーニング データ サブセットの形式で) 生成します。
この目標に向けて、FairDebugger はまず機械の非学習を利用して、基礎となるトレーニング データの一部が削除されたときのランダム フォレストのツリー構造の変化を推定し、次に頻繁なアイテムセット マイニングからの Apriori アルゴリズムを利用してサブセットの検索スペースを削減します。
私たちは 3 つの現実世界のデータセットに対するアプローチを経験的に評価し、FairDebugger によって生成された説明がこれらのデータセットに関する以前の研究からの洞察と一致していることを実証しました。

要約(オリジナル)

Tree-based machine learning models, such as decision trees and random forests, have been hugely successful in classification tasks primarily because of their predictive power in supervised learning tasks and ease of interpretation. Despite their popularity and power, these models have been found to produce unexpected or discriminatory outcomes. Given their overwhelming success for most tasks, it is of interest to identify sources of their unexpected and discriminatory behavior. However, there has not been much work on understanding and debugging tree-based classifiers in the context of fairness. We introduce FairDebugger, a system that utilizes recent advances in machine unlearning research to identify training data subsets responsible for instances of fairness violations in the outcomes of a random forest classifier. FairDebugger generates top-$k$ explanations (in the form of coherent training data subsets) for model unfairness. Toward this goal, FairDebugger first utilizes machine unlearning to estimate the change in the tree structures of the random forest when parts of the underlying training data are removed, and then leverages the Apriori algorithm from frequent itemset mining to reduce the subset search space. We empirically evaluate our approach on three real-world datasets, and demonstrate that the explanations generated by FairDebugger are consistent with insights from prior studies on these datasets.

arxiv情報

著者 Tanmay Surve,Romila Pradhan
発行日 2024-02-07 16:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク