Leveraging Machine Learning for Official Statistics: A Statistical Manifesto

要約

機械学習は機会と課題の両方をもたらすため、公的統計の作成では統計的に厳密に ML を適用することが重要です。
機械学習は近年急速な技術進歩を遂げていますが、その応用には高品質の統計結果を生成するために必要な方法論的な堅牢性が備わっていません。
機械学習モデルのすべての誤差原因を説明するために、Total Machine Learning Error (TMLE) は、調査手法で使用される Total Survey Error Model に類似したフレームワークとして提示されます。
ML モデルが内部的にも外部的にも有効であることを保証する手段として、TMLE モデルは代表性や測定誤差などの問題に対処します。
いくつかのケーススタディが紹介されており、公的統計における機械学習の適用をより厳密に適用することの重要性が示されています。

要約(オリジナル)

It is important for official statistics production to apply ML with statistical rigor, as it presents both opportunities and challenges. Although machine learning has enjoyed rapid technological advances in recent years, its application does not possess the methodological robustness necessary to produce high quality statistical results. In order to account for all sources of error in machine learning models, the Total Machine Learning Error (TMLE) is presented as a framework analogous to the Total Survey Error Model used in survey methodology. As a means of ensuring that ML models are both internally valid as well as externally valid, the TMLE model addresses issues such as representativeness and measurement errors. There are several case studies presented, illustrating the importance of applying more rigor to the application of machine learning in official statistics.

arxiv情報

著者 Marco Puts,David Salgado,Piet Daas
発行日 2024-09-06 15:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62D05, 68T05, cs.LG, G.3, stat.ME, stat.ML パーマリンク