A kernel Stein test of goodness of fit for sequential models

要約

我々は、異なる長さのテキスト文書や可変長シーケンスなど、さまざまな次元を持つ観測値をモデル化する確率密度の適合度の尺度を提案します。
提案された尺度は、正規化されていない密度に対する適合度テストを構築するために使用されているカーネル スタイン不一致 (KSD) の例です。
KSD は Stein 演算子によって定義されます。テストで使用される現在の演算子は固定次元空間に適用されます。
私たちの主な貢献として、適切な Stein 演算子を特定することで KSD を可変次元設定に拡張し、新しい KSD 適合度テストを提案します。
以前のバリアントと同様に、提案された KSD では密度を正規化する必要がないため、大規模なクラスのモデルを評価できます。
私たちのテストは、離散逐次データのベンチマークで実際に良好なパフォーマンスを示すことが示されています。

要約(オリジナル)

We propose a goodness-of-fit measure for probability densities modeling observations with varying dimensionality, such as text documents of differing lengths or variable-length sequences. The proposed measure is an instance of the kernel Stein discrepancy (KSD), which has been used to construct goodness-of-fit tests for unnormalized densities. The KSD is defined by its Stein operator: current operators used in testing apply to fixed-dimensional spaces. As our main contribution, we extend the KSD to the variable-dimension setting by identifying appropriate Stein operators, and propose a novel KSD goodness-of-fit test. As with the previous variants, the proposed KSD does not require the density to be normalized, allowing the evaluation of a large class of models. Our test is shown to perform well in practice on discrete sequential data benchmarks.

arxiv情報

著者 Jerome Baum,Heishiro Kanagawa,Arthur Gretton
発行日 2023-07-13 16:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML パーマリンク