Quantifying Valence and Arousal in Text with Multilingual Pre-trained Transformers

要約

テキストで表現された感情の分析には、多くの用途があります。
定義済みの一連の共通クラスに従って感情を分類することに焦点を当てたカテゴリ分析とは対照的に、次元アプローチは、さまざまな感情を区別するためのより微妙な方法を提供できます。
それでも、次元法は文献ではあまり研究されていません。
原子価覚醒次元空間を考慮して、この作業では、複数の言語とドメインからの入力テキストを使用して、これらの 2 つの次元を連続スケールで予測するための事前トレーニング済みトランスフォーマーの使用を評価します。
感情辞書または短いテキスト ドキュメントに対応する、以前の研究からの複数の注釈付きデータセットを具体的に組み合わせ、複数のサイズのモデルを評価し、さまざまな設定でトレーニングしました。
私たちの結果は、モデルのサイズが予測の品質に大きな影響を与える可能性があること、および大規模なモデルを微調整することで、複数の言語で価数と覚醒を自信を持って予測できることを示しています。
コード、モデル、サポート データを提供します。

要約(オリジナル)

The analysis of emotions expressed in text has numerous applications. In contrast to categorical analysis, focused on classifying emotions according to a pre-defined set of common classes, dimensional approaches can offer a more nuanced way to distinguish between different emotions. Still, dimensional methods have been less studied in the literature. Considering a valence-arousal dimensional space, this work assesses the use of pre-trained Transformers to predict these two dimensions on a continuous scale, with input texts from multiple languages and domains. We specifically combined multiple annotated datasets from previous studies, corresponding to either emotional lexica or short text documents, and evaluated models of multiple sizes and trained under different settings. Our results show that model size can have a significant impact on the quality of predictions, and that by fine-tuning a large model we can confidently predict valence and arousal in multiple languages. We make available the code, models, and supporting data.

arxiv情報

著者 Gonçalo Azevedo Mendes,Bruno Martins
発行日 2023-02-27 18:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク