要約
感情的な言語処理の進歩は、会話型AIや感情的なコンピューティングから計算心理学や創造的なコンテンツ生成に至るまで、ますます重要なNLPアプリケーションを形成しています。
既存の感情データセットは、感情的な粒度を欠いているか、必要なスタイルの多様性をキャプチャできず、効果的な感情条件付けられたテキスト生成システムの進歩を制限します。
粒度とスタイルの多様性の間のこの重要なギャップを埋めることを目指して、このペーパーでは、Dair AI Emotion DatasetやGoeMotions Taxonomyなどの既存のソースから適応した細かい粒子化感情分類法を活用するElsa EmotionとLanguage Style Alignment Datasetという系統的に構築されたデータセットを紹介します。
このデータセットは、高度な大手言語モデルLLMを使用して、会話、フォーマル、詩的、物語などの異なるコンテキストスタイルにわたって再生された元の文の複数の感情的に微妙なバリエーションで構成されています。
困惑、埋め込みの分散、読みやすさ、語彙の多様性、セマンティックコヒーレンス測定などのメトリックを使用した厳密な計算評価は、データセットの感情的な真正性、言語流encyさ、テキストの多様性を検証します。
包括的なメトリック分析は、感情条件付けられたスタイルの適応テキスト生成へのより深い調査をサポートする可能性を確認します。
精密調整された感情的に微妙な言語モデリングを可能にすることにより、私たちのデータセットは、LLMを使用した細かい粒度の感情的コントロール、迅速な説明、解釈可能性、およびスタイルの適応表現言語生成の研究のための肥沃な基盤を作成します。
要約(オリジナル)
Advancements in emotion aware language processing increasingly shape vital NLP applications ranging from conversational AI and affective computing to computational psychology and creative content generation. Existing emotion datasets either lack emotional granularity or fail to capture necessary stylistic diversity, limiting the advancement of effective emotion conditioned text generation systems. Seeking to bridge this crucial gap between granularity and style diversity, this paper introduces a novel systematically constructed dataset named ELSA Emotion and Language Style Alignment Dataset leveraging fine grained emotion taxonomies adapted from existing sources such as dair ai emotion dataset and GoEmotions taxonomy. This dataset comprises multiple emotionally nuanced variations of original sentences regenerated across distinct contextual styles such as conversational, formal, poetic, and narrative, using advanced Large Language Models LLMs. Rigorous computational evaluation using metrics such as perplexity, embedding variance, readability, lexical diversity, and semantic coherence measures validates the datasets emotional authenticity, linguistic fluency, and textual diversity. Comprehensive metric analyses affirm its potential to support deeper explorations into emotion conditioned style adaptive text generation. By enabling precision tuned emotionally nuanced language modeling, our dataset creates fertile ground for research on fine grained emotional control, prompt driven explanation, interpretability, and style adaptive expressive language generation with LLMs.
arxiv情報
著者 | Vishal Gandhi,Sagar Gandhi |
発行日 | 2025-04-11 06:30:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google