Fair Column Subset Selection

要約

列サブセットの選択の問題では、選択された列の範囲内で行列ができるだけ正確に再構築できるように、入力行列から列のサブセットが求められます。
自然な拡張として、行列の行が 2 つのグループに分割される設定を検討し、目標は、それぞれの最良の Rank-k 近似と比較して、両方のグループの最大再構成誤差を最小化する列のサブセットを選択することです。
列のサブセット選択の既知の結果をこの公平な設定に拡張することは簡単ではありません。特定のシナリオでは、グループごとに列を個別に選択することが避けられず、その結果、予想される列数が 2 倍になります。
我々は、公平な設定のための決定論的なレバレッジスコアサンプリング戦略を提案し、最小サイズの列サブセットのサンプリングが 2 つのグループの存在下で NP 困難になることを示します。
これらの否定的な結果にもかかわらず、最適解サイズの 1.5 倍以内の解を保証する近似アルゴリズムを提供します。
また、ランクを明らかにする QR 分解に基づいた実用的なヒューリスティック アルゴリズムも紹介します。
最後に、実世界のデータを使用した広範な実験を通じて手法を検証します。

要約(オリジナル)

The problem of column subset selection asks for a subset of columns from an input matrix such that the matrix can be reconstructed as accurately as possible within the span of the selected columns. A natural extension is to consider a setting where the matrix rows are partitioned into two groups, and the goal is to choose a subset of columns that minimizes the maximum reconstruction error of both groups, relative to their respective best rank-k approximation. Extending the known results of column subset selection to this fair setting is not straightforward: in certain scenarios it is unavoidable to choose columns separately for each group, resulting in double the expected column count. We propose a deterministic leverage-score sampling strategy for the fair setting and show that sampling a column subset of minimum size becomes NP-hard in the presence of two groups. Despite these negative results, we give an approximation algorithm that guarantees a solution within 1.5 times the optimal solution size. We also present practical heuristic algorithms based on rank-revealing QR factorization. Finally, we validate our methods through an extensive set of experiments using real-world data.

arxiv情報

著者 Antonis Matakos,Bruno Ordozgoiti,Suhas Thejaswi
発行日 2024-08-12 16:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク