Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning

要約

ソーシャルメディアからの情報は、自然災害時の緊急対応に不可欠な情報をほぼリアルタイムで提供します。
しかし、大量の非構造化データの中から災害関連の投稿を特定することは困難です。
従来の方法では、キーワード フィルタリング、トピック モデリング、または分類ベースの手法を使用して、そのような投稿を識別することがよくありました。
アクティブ ラーニング (AL) は、ソーシャル メディア コンテンツのテキスト分類の分野ではあまり使用されていない機械学習 (ML) の有望なサブ分野を提供します。
したがって、この研究では、災害関連のツイートを識別するための AL の可能性を調査します。
分類パフォーマンスに関して、キーワード フィルタリング アプローチ、CrisisLex の汎用データで微調整された RoBERTa モデル、AL でトレーニングされた基本 RoBERTa モデル、および AL でトレーニングされた微調整された RoBERTa モデルを比較します。
テストでは、CrisisLex のデータと、2021 年のドイツの洪水と 2023 年のチリの森林火災から手動でラベル付けされたデータが考慮されました。
結果は、10 ラウンドの AL と組み合わせた一般的な微調整が他のすべてのアプローチよりも優れていることを示しています。
その結果、災害関連ツイートの識別に広く適用可能なモデルを、ラベル付けの労力をほとんど行わずにトレーニングできる可能性があります。
このモデルは、この調査以外のユースケースにも適用でき、ソーシャル メディア分析のさらなる調査に役立つツールを提供します。

要約(オリジナル)

Information from social media can provide essential information for emergency response during natural disasters in near real-time. However, it is difficult to identify the disaster-related posts among the large amounts of unstructured data available. Previous methods often use keyword filtering, topic modelling or classification-based techniques to identify such posts. Active Learning (AL) presents a promising sub-field of Machine Learning (ML) that has not been used much in the field of text classification of social media content. This study therefore investigates the potential of AL for identifying disaster-related Tweets. We compare a keyword filtering approach, a RoBERTa model fine-tuned with generic data from CrisisLex, a base RoBERTa model trained with AL and a fine-tuned RoBERTa model trained with AL regarding classification performance. For testing, data from CrisisLex and manually labelled data from the 2021 flood in Germany and the 2023 Chile forest fires were considered. The results show that generic fine-tuning combined with 10 rounds of AL outperformed all other approaches. Consequently, a broadly applicable model for the identification of disaster-related Tweets could be trained with very little labelling effort. The model can be applied to use cases beyond this study and provides a useful tool for further research in social media analysis.

arxiv情報

著者 David Hanny,Sebastian Schmidt,Bernd Resch
発行日 2024-08-19 11:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク