Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts

要約

危機関連のソーシャルメディアテキストの意味検索やクラスタリングなどのタスクは、危機に関する議論の理解を強化し、意思決定と的を絞った介入を支援します。
事前トレーニングされた言語モデルは、危機情報学において高度なパフォーマンスを備えていますが、その文脈上の埋め込みには意味論的な意味がありません。
CrisisTransformers ファミリには意味論の問題に対処するための文エンコーダが含まれていますが、依然として単一言語のままであり、英語のテキストのみを処理します。
さらに、異なる言語に対して個別のモデルを採用すると、個別のベクトル空間への埋め込みが発生し、多言語テキスト間の意味上の類似性を比較する際に課題が生じます。
したがって、同様の意味を持つテキストが同じベクトル空間内で近接するように、50 を超える言語の危機関連のソーシャル メディア テキストを埋め込む多言語文エンコーダー (CT-XLMR-SE および CT-mBERT-SE) を提案します。
、言語の多様性とは関係ありません。
文のエンコードと文の照合タスクの結果は有望であり、これらのモデルが多言語の危機関連のソーシャル メディア テキストを埋め込む際の堅牢なベースラインとして機能する可能性があることを示唆しています。
モデルは https://huggingface.co/crisistransformers で公開されています。

要約(オリジナル)

Tasks such as semantic search and clustering on crisis-related social media texts enhance our comprehension of crisis discourse, aiding decision-making and targeted interventions. Pre-trained language models have advanced performance in crisis informatics, but their contextual embeddings lack semantic meaningfulness. Although the CrisisTransformers family includes a sentence encoder to address the semanticity issue, it remains monolingual, processing only English texts. Furthermore, employing separate models for different languages leads to embeddings in distinct vector spaces, introducing challenges when comparing semantic similarities between multi-lingual texts. Therefore, we propose multi-lingual sentence encoders (CT-XLMR-SE and CT-mBERT-SE) that embed crisis-related social media texts for over 50 languages, such that texts with similar meanings are in close proximity within the same vector space, irrespective of language diversity. Results in sentence encoding and sentence matching tasks are promising, suggesting these models could serve as robust baselines when embedding multi-lingual crisis-related social media texts. The models are publicly available at: https://huggingface.co/crisistransformers.

arxiv情報

著者 Rabindra Lamsal,Maria Rodriguez Read,Shanika Karunasekera
発行日 2024-03-25 10:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク