Active Statistical Inference

要約

アクティブ ラーニングの概念に触発され、機械学習を利用したデータ収集による統計推論のためのアクティブ推論$\unicode{x2013}$a 方法論を提案します。
この方法では、収集できるラベルの数に予算を想定し、機械学習モデルを使用してどのデータ ポイントにラベルを付けるのが最も有益かを特定し、予算を効果的に活用します。
これは、シンプルだが強力な直感に基づいて動作します。つまり、モデルが不確実性を示している場合はデータ ポイントのラベルの収集を優先し、自信がある場合はモデルの予測に依存します。
アクティブ推論は、ブラックボックス機械学習モデルを活用し、あらゆるデータ分布を処理しながら、証明された有効な信頼区間と仮説検定を構築します。
重要な点は、非適応的に収集されたデータに依存する既存のベースラインよりもはるかに少ないサンプルで同じレベルの精度を達成できることです。
これは、収集されたサンプルの数が同じ場合、能動推論により信頼区間が小さくなり、より強力な p 値が可能になることを意味します。
世論調査、国勢調査分析、プロテオミクスからのデータセットに対する能動的な推論を評価します。

要約(オリジナル)

Inspired by the concept of active learning, we propose active inference$\unicode{x2013}$a methodology for statistical inference with machine-learning-assisted data collection. Assuming a budget on the number of labels that can be collected, the methodology uses a machine learning model to identify which data points would be most beneficial to label, thus effectively utilizing the budget. It operates on a simple yet powerful intuition: prioritize the collection of labels for data points where the model exhibits uncertainty, and rely on the model’s predictions where it is confident. Active inference constructs provably valid confidence intervals and hypothesis tests while leveraging any black-box machine learning model and handling any data distribution. The key point is that it achieves the same level of accuracy with far fewer samples than existing baselines relying on non-adaptively-collected data. This means that for the same number of collected samples, active inference enables smaller confidence intervals and more powerful p-values. We evaluate active inference on datasets from public opinion research, census analysis, and proteomics.

arxiv情報

著者 Tijana Zrnic,Emmanuel J. Candès
発行日 2024-03-05 18:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク