この研究では、TASTE を導入します。これは、Transformer ベースのコンテンツ埋め込みと教師なし構造埋め込みを調和的に融合する、スタンス検出のためのマルチモーダル アーキテクチャです。
事前トレーニング済みのトランスフォーマーの微調整と、Gated Residual Network (GRN) レイヤーを介したソーシャル埋め込みとの融合を通じて、私たちのモデルは、スタンスを決定する際のコンテンツと会話構造の間の複雑な相互作用を適切に捉えます。
TASTE は、一般的なベンチマークで最先端の結果を達成し、一連の強力なベースラインを大幅に上回りました。
比較評価では、ソーシャル グラウンディングの利点が強調され、スタンス検出を強化するためにコンテンツと構造の両方を同時に利用することの重要性が強調されます。
Stance detection plays a pivotal role in enabling an extensive range of downstream applications, from discourse parsing to tracing the spread of fake news and the denial of scientific facts. While most stance classification models rely on textual representation of the utterance in question, prior work has demonstrated the importance of the conversational context in stance detection. In this work we introduce TASTE — a multimodal architecture for stance detection that harmoniously fuses Transformer-based content embedding with unsupervised structural embedding. Through the fine-tuning of a pretrained transformer and the amalgamation with social embedding via a Gated Residual Network (GRN) layer, our model adeptly captures the complex interplay between content and conversational structure in determining stance. TASTE achieves state-of-the-art results on common benchmarks, significantly outperforming an array of strong baselines. Comparative evaluations underscore the benefits of social grounding — emphasizing the criticality of concurrently harnessing both content and structure for enhanced stance detection.
著者 | Guy Barel,Oren Tsur,Dan Vilenchik |
発行日 | 2024-12-06 09:43:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google