要約
スタンス検出は、ソーシャルメディアでの公開ディスカッションを分析するための不可欠なツールとなっています。
現在の方法は、特に中国語の処理と多ターン会話分析において、重大な課題に直面しています。
これらの制限に対処するために、中国の最大のマルチターン会話スタンス検出データセットであるC-MTCSDを導入します。これは、中国の唯一の会話スタンス検出データセットの4.2倍大きいSina Weiboからの24,264個の慎重に注釈付きインスタンスを慎重に注釈しました。
従来のアプローチと大規模な言語モデルの両方を使用した当社の包括的な評価は、C-MTCSDの複雑さを明らかにしています。最先端のモデルでさえ、困難なゼロショット設定で64.07%F1スコアのみを達成し、パフォーマンスは一貫して会話の深さを高めます。
従来のモデルは、特に暗黙のスタンス検出と格闘し、50%F1スコアを達成しています。
この作業は、中国のスタンス検出研究のための挑戦的な新しいベンチマークを確立し、将来の改善のための重要な機会を強調しています。
要約(オリジナル)
Stance detection has become an essential tool for analyzing public discussions on social media. Current methods face significant challenges, particularly in Chinese language processing and multi-turn conversational analysis. To address these limitations, we introduce C-MTCSD, the largest Chinese multi-turn conversational stance detection dataset, comprising 24,264 carefully annotated instances from Sina Weibo, which is 4.2 times larger than the only prior Chinese conversational stance detection dataset. Our comprehensive evaluation using both traditional approaches and large language models reveals the complexity of C-MTCSD: even state-of-the-art models achieve only 64.07% F1 score in the challenging zero-shot setting, while performance consistently degrades with increasing conversation depth. Traditional models particularly struggle with implicit stance detection, achieving below 50% F1 score. This work establishes a challenging new benchmark for Chinese stance detection research, highlighting significant opportunities for future improvements.
arxiv情報
著者 | Fuqiang Niu,Yi Yang,Xianghua Fu,Genan Dai,Bowen Zhang |
発行日 | 2025-04-18 16:44:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google