Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Bias Detection

要約

この研究は、ゼロショット、フューショット、
説明可能なプロンプト方法。
私たちの評価からの重要な洞察は、これらのモデルの信頼性を高める上で説明可能なプロンプトの顕著な有効性であり、フレーミングバイアスに関する社会科学研究における説明可能な設定の重要性を強調しています。
特に GPT-4 は、さまざまな関連するドメイン内の例を示した場合、数ショットのシナリオでパフォーマンスが向上したことを実証しました。
FLAN-T5 のパフォーマンスが低いことは、小規模なモデルではフレーミング バイアス検出を識別するためにタスク固有の追加の微調整が必​​要になる可能性があることを示しています。
私たちの研究では、モデル、特に GPT-4 が感情的な言語をフレーム化バイアスの指標として誤って解釈することが多いことも判明し、本物の感情表現を報道することと、ニュースの見出しで意図的にフレーム化バイアスを使用することを区別するという課題が浮き彫りになりました。
さらに、フレーミングバイアスの有無が明確であるか、より論争があった見出しの 2 つのサブセットについてモデルを評価しました。その結果、これらのモデルが既存または新規のデータセット内の潜在的なアノテーションの不正確さにフラグを立てるのに役立つ可能性があることが示唆されました。
最後に、この研究では、米国の銃暴力に焦点を当てた初期のデータセットを超えて、現実世界の条件 (「自然環境」) でモデルを評価し、幅広いトピックをカバーする枠付き見出しでのモデルのパフォーマンスを評価します。

要約(オリジナル)

This work contributes to the expanding research on the applicability of LLMs in social sciences by examining the performance of GPT-3.5 Turbo, GPT-4, and Flan-T5 models in detecting framing bias in news headlines through zero-shot, few-shot, and explainable prompting methods. A key insight from our evaluation is the notable efficacy of explainable prompting in enhancing the reliability of these models, highlighting the importance of explainable settings for social science research on framing bias. GPT-4, in particular, demonstrated enhanced performance in few-shot scenarios when presented with a range of relevant, in-domain examples. FLAN-T5’s poor performance indicates that smaller models may require additional task-specific fine-tuning for identifying framing bias detection. Our study also found that models, particularly GPT-4, often misinterpret emotional language as an indicator of framing bias, underscoring the challenge of distinguishing between reporting genuine emotional expression and intentionally use framing bias in news headlines. We further evaluated the models on two subsets of headlines where the presence or absence of framing bias was either clear-cut or more contested, with the results suggesting that these models’ can be useful in flagging potential annotation inaccuracies within existing or new datasets. Finally, the study evaluates the models in real-world conditions (‘in the wild’), moving beyond the initial dataset focused on U.S. Gun Violence, assessing the models’ performance on framed headlines covering a broad range of topics.

arxiv情報

著者 Valeria Pastorino,Jasivan A. Sivakumar,Nafise Sadat Moosavi
発行日 2024-02-23 15:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク