How Much is Unseen Depends Chiefly on Information About the Seen

要約

最初は直観に反するように思えるかもしれません。予想どおり、未知の母集団 (トレーニング データに現れないクラスに属するデータ ポイント) におけるデータ ポイントの割合は、ほぼ完全に次の数 $f_k$ によって決定されることが分かりました。
トレーニング データに同じ回数出現するクラス。
理論的には、誘導推定量の差がサンプルのサイズに応じて指数関数的に減衰することが示されていますが、実際には、分散が大きいため、サンプル範囲の推定量に直接使用することはできません。
ただし、$f_k$ 間の依存関係を正確に特徴付けると、期待値のさまざまな表現の大きな検索空間が生じ、推定値として決定論的にインスタンス化できます。
そこで、最適化に目を向け、サンプルのみを与えて平均二乗誤差 (MSE) が最小となる推定量を検索する遺伝的アルゴリズムを開発します。
私たちの実験では、遺伝的アルゴリズムにより、最先端のグッドチューリング推定量よりも大幅に小さい MSE を持つ推定量が発見されました。
少なくともクラスと同数のサンプルがある場合、これは 96% 以上の実行で当てはまります。
私たちの推定者の MSE は、Good-Turing 推定者の約 80% です。

要約(オリジナル)

It might seem counter-intuitive at first: We find that, in expectation, the proportion of data points in an unknown population-that belong to classes that do not appear in the training data-is almost entirely determined by the number $f_k$ of classes that do appear in the training data the same number of times. While in theory we show that the difference of the induced estimator decays exponentially in the size of the sample, in practice the high variance prevents us from using it directly for an estimator of the sample coverage. However, our precise characterization of the dependency between $f_k$’s induces a large search space of different representations of the expected value, which can be deterministically instantiated as estimators. Hence, we turn to optimization and develop a genetic algorithm that, given only the sample, searches for an estimator with minimal mean-squared error (MSE). In our experiments, our genetic algorithm discovers estimators that have a substantially smaller MSE than the state-of-the-art Good-Turing estimator. This holds for over 96% of runs when there are at least as many samples as classes. Our estimators’ MSE is roughly 80% of the Good-Turing estimator’s.

arxiv情報

著者 Seongmin Lee,Marcel Böhme
発行日 2024-02-08 17:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, stat.ML パーマリンク