Investigating the Robustness of Modelling Decisions for Few-Shot Cross-Topic Stance Detection: A Preregistered Study

要約

多様な視点を持つニュース推奨者にとって、2 つのニュース記事が同じ視点を表現しているかどうかを識別することは不可欠です。
「同じ視点か異なる視点」を判断する 1 つの方法は、スタンス検出です。
この論文では、さまざまなトピックにわたるスタンスのモデリングに特に注意を払い、数ショットのスタンス検出のための操作化の選択肢の堅牢性を調査します。
私たちの実験では、スタンス検出に関する事前登録された仮説をテストします。
具体的には、2 つのスタンス タスク定義 (プロ/コンと同じサイド スタンス)、2 つの LLM アーキテクチャ (バイエンコーディングとクロスエンコーディング)、および自然言語推論の知識の追加を、100 個のサンプルのショットでトレーニングされた事前トレーニング済み RoBERTa モデルと比較します。
7 つの異なるスタンス検出データセットから。
以前の研究からの仮説や主張の一部は確認できますが、他の仮説や主張はより一貫性のない結果をもたらします。
Same Side Stance 定義がパフォーマンスに及ぼす影響はデータセットごとに異なり、他のモデリングの選択の影響を受けます。
トレーニング ショット内のトレーニング トピックの数とパフォーマンスの間に相関関係は見つかりませんでした。
一般に、クロスエンコーディングはバイエンコーディングよりもパフォーマンスが高く、NLI トレーニングをモデルに追加すると大幅な改善が得られますが、これらの結果はすべてのデータセットで一貫しているわけではありません。
私たちの結果は、概念「スタンス」に対する堅牢なモデリングの選択肢を見つけることを目指す場合、複数のデータセットと体系的なモデリング実験を含めることが不可欠であることを示しています。

要約(オリジナル)

For a viewpoint-diverse news recommender, identifying whether two news articles express the same viewpoint is essential. One way to determine ‘same or different’ viewpoint is stance detection. In this paper, we investigate the robustness of operationalization choices for few-shot stance detection, with special attention to modelling stance across different topics. Our experiments test pre-registered hypotheses on stance detection. Specifically, we compare two stance task definitions (Pro/Con versus Same Side Stance), two LLM architectures (bi-encoding versus cross-encoding), and adding Natural Language Inference knowledge, with pre-trained RoBERTa models trained with shots of 100 examples from 7 different stance detection datasets. Some of our hypotheses and claims from earlier work can be confirmed, while others give more inconsistent results. The effect of the Same Side Stance definition on performance differs per dataset and is influenced by other modelling choices. We found no relationship between the number of training topics in the training shots and performance. In general, cross-encoding out-performs bi-encoding, and adding NLI training to our models gives considerable improvement, but these results are not consistent across all datasets. Our results indicate that it is essential to include multiple datasets and systematic modelling experiments when aiming to find robust modelling choices for the concept `stance’.

arxiv情報

著者 Myrthe Reuver,Suzan Verberne,Antske Fokkens
発行日 2024-04-05 09:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク