要約
感情分析のためのほとんどのデータセットには、意見が表明されたコンテキストが欠けており、感情の理解にはしばしば重要であり、主にいくつかの感情カテゴリによって制限されています。
GPT-4のような基礎大規模な言語モデル(LLM)は、予測過剰な感情に苦しみ、リソース集約的すぎます。
LLMベースのデータ合成パイプラインを設計し、よりアクセスしやすく軽量のバートタイプのエンコーダーモデルのトレーニング例を生成するために、大規模なモデルMistral-7Bを活用しています。
私たちは、例のセマンティックな多様性を拡大することに焦点を当て、28の感情クラスを超えるユニークなコンテキストを持つ非反復的なストーリー – 文字中心の発言を生み出すために、世代を物語のコーパスに接地することを提案します。
450 GPU時間で700K推論を実行することで、両方のシナリオをカバーするために、100Kコンテキストのデータセットと300Kコンテキストのない例に貢献します。
事前に訓練されたエンコーダーを微調整するために使用します。これにより、いくつかのEmo Pillarsモデルが生まれます。
EMO Pillarsモデルは、GoeMotions、ISEAR、IEMOCAP、EmoContextなどの特定のタスクに合わせてチューニングし、最初の3つのSOTAパフォーマンスに到達すると、新しいドメインに非常に適応していることを示しています。
また、データセットを検証し、統計分析と人間の評価を実施し、パイプライン内の税務上のラベルのハンドリングの改善の必要性を指摘しながら、発話の多様化(中立クラスでは少ない)とコンテキストのパーソナライズにおける測定の成功を確認します。
要約(オリジナル)
Most datasets for sentiment analysis lack context in which an opinion was expressed, often crucial for emotion understanding, and are mainly limited by a few emotion categories. Foundation large language models (LLMs) like GPT-4 suffer from over-predicting emotions and are too resource-intensive. We design an LLM-based data synthesis pipeline and leverage a large model, Mistral-7b, for the generation of training examples for more accessible, lightweight BERT-type encoder models. We focus on enlarging the semantic diversity of examples and propose grounding the generation into a corpus of narratives to produce non-repetitive story-character-centered utterances with unique contexts over 28 emotion classes. By running 700K inferences in 450 GPU hours, we contribute with the dataset of 100K contextual and also 300K context-less examples to cover both scenarios. We use it for fine-tuning pre-trained encoders, which results in several Emo Pillars models. We show that Emo Pillars models are highly adaptive to new domains when tuned to specific tasks such as GoEmotions, ISEAR, IEMOCAP, and EmoContext, reaching the SOTA performance on the first three. We also validate our dataset, conducting statistical analysis and human evaluation, and confirm the success of our measures in utterance diversification (although less for the neutral class) and context personalization, while pointing out the need for improved handling of out-of-taxonomy labels within the pipeline.
arxiv情報
著者 | Alexander Shvets |
発行日 | 2025-04-23 16:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google