要約
タイトル:LEIA:感情の識別のための言語組み込み
要約:
– 社会メディアによって生成されたテキストデータの豊富さにより、言語モデルを用いた感情の新しい分析が可能になりました。
– これらのモデルは、ソーシャルメディア投稿で他人が表現する感情を推測する読者によって生成された小規模かつコストの高いテキスト注釈のデータセットでしばしば訓練されています。 これにより、トレーニングデータサイズの制限やモデル開発に使用されるラベルのノイズが感情識別方法の品質に影響を与えます。
– LEIAは、喜び、愛情、悲しみ、怒り、恐怖の自己注釈感情ラベルを持つ6百万以上の投稿のデータセットでトレーニングされたテキストの感情識別のためのモデルです。
– LEIAは、感情語彙の学習を強化するワードマスキング方法に基づいており、3つのインドメインテストデータセットで約73のマクロF1値を実現し、LEIAが投稿、ユーザー、時間帯を横断して一般化することを示す強力なベンチマークで他の監視および非監視方法を凌駕しています。
– LEIAは、社会メディアおよびその他のソースの5つの異なるデータセットでのドメイン外評価を行い、LEIAがメディア、データ収集方法、注釈スキームを横断して堅牢なパフォーマンスを発揮することを示しました。
– LEIAは、今後の研究で、執筆者の視点からテキストの感情をよりよく識別するために使用できます。 この記事で生成されたモデルは、https://huggingface.co/LEIAで公開されています。
要約(オリジナル)
The wealth of text data generated by social media has enabled new kinds of analysis of emotions with language models. These models are often trained on small and costly datasets of text annotations produced by readers who guess the emotions expressed by others in social media posts. This affects the quality of emotion identification methods due to training data size limitations and noise in the production of labels used in model development. We present LEIA, a model for emotion identification in text that has been trained on a dataset of more than 6 million posts with self-annotated emotion labels for happiness, affection, sadness, anger, and fear. LEIA is based on a word masking method that enhances the learning of emotion words during model pre-training. LEIA achieves macro-F1 values of approximately 73 on three in-domain test datasets, outperforming other supervised and unsupervised methods in a strong benchmark that shows that LEIA generalizes across posts, users, and time periods. We further perform an out-of-domain evaluation on five different datasets of social media and other sources, showing LEIA’s robust performance across media, data collection methods, and annotation schemes. Our results show that LEIA generalizes its classification of anger, happiness, and sadness beyond the domain it was trained on. LEIA can be applied in future research to provide better identification of emotions in text from the perspective of the writer. The models produced for this article are publicly available at https://huggingface.co/LEIA
arxiv情報
著者 | Segun Taofeek Aroyehun,Lukas Malik,Hannah Metzler,Nikolas Haimerl,Anna Di Natale,David Garcia |
発行日 | 2023-04-21 14:17:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI