Curating corpora with classifiers: A case study of clean energy sentiment online


タイトル: クラス分け器を用いたコーパスのキュレーション:クリーンエネルギーのオンライン感情のケーススタディ

– 大衆の意見を広く含む、厳選された大規模なSNSの投稿を含むコーパスは、従来の調査を補完する代替データ源となる。
– 調査は代表的なサンプルを収集し、高い精度を実現することができるが、実施コストは高く、公の意見が数日から数週間遅れる可能性がある。
– リアルタイムかつ高いボリュームのデータストリームと高速な解析パイプラインでこれらの欠点を克服することが課題となっている。
– このデータパイプラインを調整する上での中心的な課題は、分析のための最適なコーパスの選択を迅速に行うための効果的な方法を考案することである。
– キーワードだけでクエリすると、bag-of-words自然言語処理方法で容易に識別できない無関係な文書が含まれることがある。
– ここでは、先行してトランスフォーマーベースのモデルを使用して、二値分類のタスクに対して手動でラベル付けされたツイートを微調整し、不要なツイートをフィルタリングするコーパスのキュレーション方法を探索している。
– 最大F1スコア0.95を実現し、このモデルの微調整の低コスト・高性能性から、不確定なコーパス境界を持つSNSデータセットの前処理ステップとして広く役に立つ可能性がある。


Well curated, large-scale corpora of social media posts containing broad public opinion offer an alternative data source to complement traditional surveys. While surveys are effective at collecting representative samples and are capable of achieving high accuracy, they can be both expensive to run and lag public opinion by days or weeks. Both of these drawbacks could be overcome with a real-time, high volume data stream and fast analysis pipeline. A central challenge in orchestrating such a data pipeline is devising an effective method for rapidly selecting the best corpus of relevant documents for analysis. Querying with keywords alone often includes irrelevant documents that are not easily disambiguated with bag-of-words natural language processing methods. Here, we explore methods of corpus curation to filter irrelevant tweets using pre-trained transformer-based models, fine-tuned for our binary classification task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95. The low cost and high performance of fine-tuning such a model suggests that our approach could be of broad benefit as a pre-processing step for social media datasets with uncertain corpus boundaries.


著者 Michael V. Arnold,Peter Sheridan Dodds,Christopher M. Danforth
発行日 2023-05-10 02:39:55+00:00
