要約
スタンスの検出は、インターネット上のさまざまな態度や信念を理解するために重要です。
ただし、特定のトピックに対するパッセージのスタンスがそのトピックに大きく依存していることが多いことを考えると、目に見えないトピックに一般化するスタンス検出モデルを構築することは困難です。
この研究では、下流のスタンス検出で使用するトピック非依存/TAG およびトピック認識/TAW 埋め込みをトレーニングするために、対照学習と、さまざまなトピックをカバーするラベルなしのニュース記事のデータセットを使用することを提案します。
これらの埋め込みを完全な TATA モデルに組み合わせることで、いくつかの公開スタンス検出データセットにわたって最先端のパフォーマンスを達成します (Zero-shot VAST データセットで 0.771 $F_1$ スコア)。
コードとデータは https://github.com/hanshanley/tata でリリースされます。
要約(オリジナル)
Stance detection is important for understanding different attitudes and beliefs on the Internet. However, given that a passage’s stance toward a given topic is often highly dependent on that topic, building a stance detection model that generalizes to unseen topics is difficult. In this work, we propose using contrastive learning as well as an unlabeled dataset of news articles that cover a variety of different topics to train topic-agnostic/TAG and topic-aware/TAW embeddings for use in downstream stance detection. Combining these embeddings in our full TATA model, we achieve state-of-the-art performance across several public stance detection datasets (0.771 $F_1$-score on the Zero-shot VAST dataset). We release our code and data at https://github.com/hanshanley/tata.
arxiv情報
著者 | Hans W. A. Hanley,Zakir Durumeric |
発行日 | 2024-02-08 15:17:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google