A Statistical View of Column Subset Selection

要約

大規模なデータセットから代表的な変数の小さなサブセットを選択する問題を考えます。
コンピューター サイエンスの文献では、この次元削減の問題は通常、列サブセット選択 (CSS) として形式化されます。
一方、典型的な統計的定式化は、情報を最大化する主変数のセットを見つけることです。
この論文は、これら 2 つのアプローチが等価であり、さらに、両方とも特定のセミパラメトリック モデル内の最尤推定とみなすことができることを示します。
これらの接続を使用して、(1) 元のデータセットの概要統計のみを使用して CSS を効率的に実行する方法を示します。
(2) 欠落データおよび/または検閲されたデータが存在する場合に CSS を実行します。
(3) 仮説検証フレームワークで CSS のサブセット サイズを選択します。

要約(オリジナル)

We consider the problem of selecting a small subset of representative variables from a large dataset. In the computer science literature, this dimensionality reduction problem is typically formalized as Column Subset Selection (CSS). Meanwhile, the typical statistical formalization is to find an information-maximizing set of Principal Variables. This paper shows that these two approaches are equivalent, and moreover, both can be viewed as maximum likelihood estimation within a certain semi-parametric model. Using these connections, we show how to efficiently (1) perform CSS using only summary statistics from the original dataset; (2) perform CSS in the presence of missing and/or censored data; and (3) select the subset size for CSS in a hypothesis testing framework.

arxiv情報

著者 Anav Sood,Trevor Hastie
発行日 2023-07-24 15:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ME パーマリンク