Fair Column Subset Selection

要約

公平な列サブセット選択の問題を検討します。
特に、データ内に 2 つのグループが存在し、選択された列サブセットは、それぞれの最良の Rank-k 近似と比較して、両方の適切な近似を提供する必要があると仮定します。
この公平な設定が重大な課題を引き起こすことを示します。既知の結果を拡張するには、単純に元のメソッドの 2 倍の列を選択するという単純な解決策よりも優れた方法はありません。
決定論的なレバレッジスコアサンプリングに基づく既知のアプローチを採用し、適切なサイズのサブセットを単にサンプリングするだけでは、2 つのグループが存在する場合には NP 困難になることを示します。
目的のサイズの 2 倍のサブセットを見つけるのは簡単ですが、本質的にそのサイズの 1.5 倍で同じ保証を達成する効率的なアルゴリズムを提供します。
私たちは、実世界のデータに対する広範な実験を通じて手法を検証します。

要約(オリジナル)

We consider the problem of fair column subset selection. In particular, we assume that two groups are present in the data, and the chosen column subset must provide a good approximation for both, relative to their respective best rank-k approximations. We show that this fair setting introduces significant challenges: in order to extend known results, one cannot do better than the trivial solution of simply picking twice as many columns as the original methods. We adopt a known approach based on deterministic leverage-score sampling, and show that merely sampling a subset of appropriate size becomes NP-hard in the presence of two groups. Whereas finding a subset of two times the desired size is trivial, we provide an efficient algorithm that achieves the same guarantees with essentially 1.5 times that size. We validate our methods through an extensive set of experiments on real-world data.

arxiv情報

著者 Antonis Matakos,Bruno Ordozgoiti,Suhas Thejaswi
発行日 2023-06-07 15:00:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク