Should we trust web-scraped data?

要約

実証研究者による計量経済学的アプローチや機械学習アプローチの採用が進むにつれ、データ収集手法のひとつであるウェブスクレイピングが広く使われるようになった。Webスクレイピングとは、自動化されたコンピュータプログラムを使ってWebサイトにアクセスし、そのコンテンツをダウンロードすることを指す。本稿の主要な論点は、na’sのウェブスクレイピング手順は、収集されたデータにサンプリングバイアスをもたらす可能性があるということである。本稿では、ウェブスクレイピングされたデータにおけるサンプリング・バイアスの3つの原因を説明する。具体的には、ウェブコンテンツが揮発性であること(すなわち、変化しやすいこと)、パーソナライズされていること(すなわち、リクエストの特徴に応じて提示されること)、インデックス化されていないこと(すなわち、母集団登録の豊富さ)からサンプリングバイアスが生じる。一連の例で、サンプリングバイアスの有病率と大きさを説明する。研究者やレビュアーを支援するために、本稿では、ウェブスクレイピングされたデータにおけるサンプリングバイアスを予測、検出、克服するための推奨事項を提供する。

要約(オリジナル)

The increasing adoption of econometric and machine-learning approaches by empirical researchers has led to a widespread use of one data collection method: web scraping. Web scraping refers to the use of automated computer programs to access websites and download their content. The key argument of this paper is that na\’ive web scraping procedures can lead to sampling bias in the collected data. This article describes three sources of sampling bias in web-scraped data. More specifically, sampling bias emerges from web content being volatile (i.e., being subject to change), personalized (i.e., presented in response to request characteristics), and unindexed (i.e., abundance of a population register). In a series of examples, I illustrate the prevalence and magnitude of sampling bias. To support researchers and reviewers, this paper provides recommendations on anticipating, detecting, and overcoming sampling bias in web-scraped data.

arxiv情報

著者 Jens Foerderer
発行日 2023-08-04 10:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, econ.GN, q-fin.EC, stat.ME パーマリンク