要約
タイトル:分類器を用いたコーパスの作成:クリーンエネルギーのオンラインセンチメントのケーススタディ
要約:
– よく整備された、大規模なソーシャルメディア投稿のコーパスは、従来の調査に補完される代替データソースを提供する。
– 調査は代表的なサンプルを収集することができ、高い精度を達成することができるが、実行するためには高価であり、パブリックオピニオンに遅れが生じる可能性がある。
– これらの欠点は、リアルタイムで高い容量のデータストリームと高速な分析パイプラインを備えたものによって克服できる可能性がある。
– そうしたデータパイプラインを組織する上での中心的な課題は、分析のために最適な関連ドキュメントのコーパスを迅速に選択する効果的な方法を考案することである。
– キーワードの問い合わせだけでは、バッグオブワーズ自然言語処理の方法で簡単に曖昧に区別されない不関連なドキュメントが含まれることが多い。
– ここでは、手作業でラベル付けされたツイートに対してファインチューニングされた事前学習済みトランスフォーマーベースのモデルを使用して、不関連なツイートをフィルタリングするコーパスキュレーションの方法を探索する。
– F1スコアが0.95に達することができる。
– このようなモデルをファインチューニングするのは低コストで高性能であり、不確実なコーパス境界を持つソーシャルメディアデータセットの前処理ステップとして広く利用できる可能性がある。
要約(オリジナル)
Well curated, large-scale corpora of social media posts containing broad public opinion offer an alternative data source to complement traditional surveys. While surveys are effective at collecting representative samples and are capable of achieving high accuracy, they can be both expensive to run and lag public opinion by days or weeks. Both of these drawbacks could be overcome with a real-time, high volume data stream and fast analysis pipeline. A central challenge in orchestrating such a data pipeline is devising an effective method for rapidly selecting the best corpus of relevant documents for analysis. Querying with keywords alone often includes irrelevant documents that are not easily disambiguated with bag-of-words natural language processing methods. Here, we explore methods of corpus curation to filter irrelevant tweets using pre-trained transformer-based models, fine-tuned for our binary classification task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95. The low cost and high performance of fine-tuning such a model suggests that our approach could be of broad benefit as a pre-processing step for social media datasets with uncertain corpus boundaries.
arxiv情報
著者 | Michael V. Arnold,Peter Sheridan Dodds,Chris M. Danforth |
発行日 | 2023-05-04 18:15:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI