Robust bilinear factor analysis based on the matrix-variate $t$ distribution

要約

多変量 $t$ 分布 ($t$fa) に基づく因子分析は、ヘビーテールまたは汚染されたデータから共通因子を抽出するための便利な堅牢なツールです。
ただし、$t$fa はベクトル データにのみ適用されます。
$t$fa を行列データに適用する場合、最初に行列観測値をベクトル化するのが一般的です。
これにより、$t$fa には 2 つの課題が生じます。(i) データの固有の行列構造が壊れる、(ii) ベクトル化された行列データは通常、データ次元が高くなるため、堅牢性が失われる可能性があります。
$t$faの内訳。
これらの問題に対処するために、行列データの固有行列構造から始めて、新しいロバストな因子分析モデル、つまり行列変量 $t$ 分布 ($t$bfa) に基づいて構築された双線形因子分析をこの論文で提案します。
新しい点は、ヘビーテールまたは汚染された行列データ上で、対象となる行変数と列変数の両方の共通因子を同時に抽出できることです。
$t$bfa の最尤推定のための 2 つの効率的なアルゴリズムが開発されました。
パラメータ推定の精度を計算するためのフィッシャー情報行列の閉形式式が導出されます。
提案された $t$bfa モデルを理解し、関連する競合他社と比較するために実証研究が行われます。
この結果は、$t$bfa の優位性と実用性を示しています。
重要なのは、$t$bfa は $t$fa よりも大幅に高いブレークダウン ポイントを示し、行列データにより適していることです。

要約(オリジナル)

Factor Analysis based on multivariate $t$ distribution ($t$fa) is a useful robust tool for extracting common factors on heavy-tailed or contaminated data. However, $t$fa is only applicable to vector data. When $t$fa is applied to matrix data, it is common to first vectorize the matrix observations. This introduces two challenges for $t$fa: (i) the inherent matrix structure of the data is broken, and (ii) robustness may be lost, as vectorized matrix data typically results in a high data dimension, which could easily lead to the breakdown of $t$fa. To address these issues, starting from the intrinsic matrix structure of matrix data, a novel robust factor analysis model, namely bilinear factor analysis built on the matrix-variate $t$ distribution ($t$bfa), is proposed in this paper. The novelty is that it is capable to simultaneously extract common factors for both row and column variables of interest on heavy-tailed or contaminated matrix data. Two efficient algorithms for maximum likelihood estimation of $t$bfa are developed. Closed-form expression for the Fisher information matrix to calculate the accuracy of parameter estimates are derived. Empirical studies are conducted to understand the proposed $t$bfa model and compare with related competitors. The results demonstrate the superiority and practicality of $t$bfa. Importantly, $t$bfa exhibits a significantly higher breakdown point than $t$fa, making it more suitable for matrix data.

arxiv情報

著者 Xuan Ma,Jianhua Zhao,Changchun Shang,Fen Jiang,Philip L. H. Yu
発行日 2024-01-04 11:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク