Misclassification in Automated Content Analysis Causes Bias in Regression. Can We Fix It? Yes We Can!

要約

自動分類器 (AC) は、教師あり機械学習 (SML) を介して構築されることが多く、テキストから画像、ビデオに至るまで、統計的に強力な大規模なデータ サンプルを分類でき、コミュニケーション科学および関連分野で広く普及している測定デバイスとなっています。
この人気にもかかわらず、高精度の分類器であっても、そのような分析がこれらのエラーを考慮していない限り、下流の分析で誤分類バイアスや誤解を招く結果を引き起こすエラーが発生します。
SML アプリケーションの体系的な文献レビューで示されているように、コミュニケーション学者は誤分類バイアスをほとんど無視しています。
原則として、既存の統計手法は、人間のアノテーターによって作成されたものなどの「ゴールドスタンダード」検証データを使用して、誤分類バイアスを修正し、一貫した推定値を生成できます。
私たちは、各メソッドの限界を明らかにするために設計されたモンテカルロ シミュレーションを介して、R パッケージ誤分類モデルで設計および実装した新しいメソッドを含む、そのようなメソッドを導入およびテストし、これもリリースします。
私たちの結果に基づいて、多用途で効率的な新しいエラー訂正方法をお勧めします。
要約すると、自動分類器は、一般的な精度基準を下回っているものや系統的な誤分類を行っているものであっても、慎重な研究設計と適切な誤差修正方法を使用すれば測定に役立ちます。

要約(オリジナル)

Automated classifiers (ACs), often built via supervised machine learning (SML), can categorize large, statistically powerful samples of data ranging from text to images and video, and have become widely popular measurement devices in communication science and related fields. Despite this popularity, even highly accurate classifiers make errors that cause misclassification bias and misleading results in downstream analyses-unless such analyses account for these errors. As we show in a systematic literature review of SML applications, communication scholars largely ignore misclassification bias. In principle, existing statistical methods can use ‘gold standard’ validation data, such as that created by human annotators, to correct misclassification bias and produce consistent estimates. We introduce and test such methods, including a new method we design and implement in the R package misclassificationmodels, via Monte Carlo simulations designed to reveal each method’s limitations, which we also release. Based on our results, we recommend our new error correction method as it is versatile and efficient. In sum, automated classifiers, even those below common accuracy standards or making systematic misclassifications, can be useful for measurement with careful study design and appropriate error correction methods.

arxiv情報

著者 Nathan TeBlunthuis,Valerie Hase,Chung-Hong Chan
発行日 2023-07-12 23:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, G.3 パーマリンク