要約
この論文では、自然言語処理における計算手法よりも構文的、意味的、文脈的特徴を優先する言語レンズを通してユーモアの検出を検討します。
私たちは機能を、語彙集、構造統計、Word2Vec、WordNet、音声スタイルなど、構文的、意味的、およびコンテキストの次元に分類します。
私たちが提案するモデル Colbert は、BERT 埋め込みと並列隠れ層を利用して文の整合性を捉えます。
構文的、意味的、および文脈上の特徴を組み合わせることで、Colbert をユーモア検出のためにトレーニングします。
特徴エンジニアリングでは、BERT 埋め込みとともに重要な構文および意味論的な特徴を検査します。
SHAP 解釈とデシジョン ツリーは影響力のある特徴を特定し、総合的なアプローチにより目に見えないデータに対するユーモア検出の精度が向上することを明らかにしています。
さまざまな次元からの言語的手がかりを統合することで、従来の計算手法を超えてユーモアの複雑さを理解するモデルの能力が強化されます。
要約(オリジナル)
This paper explores humor detection through a linguistic lens, prioritizing syntactic, semantic, and contextual features over computational methods in Natural Language Processing. We categorize features into syntactic, semantic, and contextual dimensions, including lexicons, structural statistics, Word2Vec, WordNet, and phonetic style. Our proposed model, Colbert, utilizes BERT embeddings and parallel hidden layers to capture sentence congruity. By combining syntactic, semantic, and contextual features, we train Colbert for humor detection. Feature engineering examines essential syntactic and semantic features alongside BERT embeddings. SHAP interpretations and decision trees identify influential features, revealing that a holistic approach improves humor detection accuracy on unseen data. Integrating linguistic cues from different dimensions enhances the model’s ability to understand humor complexity beyond traditional computational methods.
arxiv情報
著者 | Tanisha Khurana,Kaushik Pillalamarri,Vikram Pande,Munindar Singh |
発行日 | 2024-08-12 17:52:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google