Entity Framing and Role Portrayal in the News

要約

ニュース記事で、エンティティのフレーミングと役割の描写に注釈が付けられた新しい多言語階層コーパスを紹介します。
データセットは、ストーリーテリング要素に触発されたユニークな分類法を使用します。これは、主人公、敵対者、イノセントの3つの主要なカテゴリにネストされた22の細かい役割、またはアーキタイプで構成されています。
各アーキタイプは慎重に定義されており、主人公のためのガーディアン、mart教者、負け犬などのエンティティの微妙な描写を捉えています。
敵対者のための暴君、詐欺師、偏屈者。
犠牲者、スケープゴート、そして罪のない人のために悪用されました。
データセットには、ウクライナとロシアの戦争と気候変動という2つの重要な領域に焦点を当てた5つの言語(ブルガリア語、英語、ヒンディー語、ヨーロッパ、ヨーロッパ、ロシア語、ロシア語)の1,378の最近のニュース記事が含まれています。
5,800を超えるエンティティに、役割ラベルが注釈されています。
このデータセットは、役割の描写の研究のための貴重なリソースとして機能し、ニュース分析に幅広い意味を持っています。
データセットと注釈プロセスの特性について説明し、ドキュメントのレベル、段落、および
文。

要約(オリジナル)

We introduce a novel multilingual hierarchical corpus annotated for entity framing and role portrayal in news articles. The dataset uses a unique taxonomy inspired by storytelling elements, comprising 22 fine-grained roles, or archetypes, nested within three main categories: protagonist, antagonist, and innocent. Each archetype is carefully defined, capturing nuanced portrayals of entities such as guardian, martyr, and underdog for protagonists; tyrant, deceiver, and bigot for antagonists; and victim, scapegoat, and exploited for innocents. The dataset includes 1,378 recent news articles in five languages (Bulgarian, English, Hindi, European Portuguese, and Russian) focusing on two critical domains of global significance: the Ukraine-Russia War and Climate Change. Over 5,800 entity mentions have been annotated with role labels. This dataset serves as a valuable resource for research into role portrayal and has broader implications for news analysis. We describe the characteristics of the dataset and the annotation process, and we report evaluation results on fine-tuned state-of-the-art multilingual transformers and hierarchical zero-shot learning using LLMs at the level of a document, a paragraph, and a sentence.

arxiv情報

著者 Tarek Mahmoud,Zhuohan Xie,Dimitar Dimitrov,Nikolaos Nikolaidis,Purificação Silvano,Roman Yangarber,Shivam Sharma,Elisa Sartori,Nicolas Stefanovitch,Giovanni Da San Martino,Jakub Piskorski,Preslav Nakov
発行日 2025-02-20 16:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク