CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts

要約

ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を果たしますが、危機関連のソーシャルメディアテキストの分析は非公式な性質のため困難です。
BERT や RoBERTa などのトランスフォーマーベースの事前トレーニング済みモデルは、さまざまな NLP タスクで成功を収めていますが、危機関連のテキスト向けには調整されていません。
さらに、危機関連テキストのテキストの複雑さに関係なく、汎用文エンコーダを使用して文埋め込みが生成されます。
テキスト分類、セマンティック検索、クラスタリングなどのアプリケーションの進歩は、危機関連テキストの効果的な処理に貢献します。これは、緊急対応者が歴史的かリアルタイムかにかかわらず、危機事象の包括的な見解を得るために不可欠です。
危機情報学の文献におけるこれらのギャップに対処するために、この研究では、疾病の発生を含む 30 以上の危機事象に関連するツイートからの 150 億語以上のトークンの広範なコーパスで訓練された、事前に訓練された言語モデルと文エンコーダーのアンサンブルである CrisisTransformers を導入します。
自然災害、紛争、その他の重大な事件。
18 の危機に特化した公開データセットで既存のモデルと CrisisTransformers を評価します。
当社の事前トレーニング済みモデルは、分類タスクにおいてすべてのデータセットにわたって強力なベースラインを上回り、最高のパフォーマンスを誇るセンテンス エンコーダーは、センテンス エンコード タスクにおいて最先端のモデルを 17.43% 向上させます。
さらに、モデルの初期化が収束に及ぼす影響を調査し、意味的に意味のある文埋め込みを生成する際のドメイン固有モデルの重要性を評価します。
すべてのモデルは一般に公開されており (https://huggingface.co/crisistransformers)、危機関連のソーシャル メディア テキストの分析を含むタスクの強力なベースラインとして機能することが期待されています。

要約(オリジナル)

Social media platforms play an essential role in crisis communication, but analyzing crisis-related social media texts is challenging due to their informal nature. Transformer-based pre-trained models like BERT and RoBERTa have shown success in various NLP tasks, but they are not tailored for crisis-related texts. Furthermore, general-purpose sentence encoders are used to generate sentence embeddings, regardless of the textual complexities in crisis-related texts. Advances in applications like text classification, semantic search, and clustering contribute to effective processing of crisis-related texts, which is essential for emergency responders to gain a comprehensive view of a crisis event, whether historical or real-time. To address these gaps in crisis informatics literature, this study introduces CrisisTransformers, an ensemble of pre-trained language models and sentence encoders trained on an extensive corpus of over 15 billion word tokens from tweets associated with more than 30 crisis events, including disease outbreaks, natural disasters, conflicts, and other critical incidents. We evaluate existing models and CrisisTransformers on 18 crisis-specific public datasets. Our pre-trained models outperform strong baselines across all datasets in classification tasks, and our best-performing sentence encoder improves the state-of-the-art by 17.43% in sentence encoding tasks. Additionally, we investigate the impact of model initialization on convergence and evaluate the significance of domain-specific models in generating semantically meaningful sentence embeddings. All models are publicly released (https://huggingface.co/crisistransformers), with the anticipation that they will serve as a robust baseline for tasks involving the analysis of crisis-related social media texts.

arxiv情報

著者 Rabindra Lamsal,Maria Rodriguez Read,Shanika Karunasekera
発行日 2023-09-11 14:36:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク