A Corpus for Sentence-level Subjectivity Detection on English News Articles

要約

文レベルで主観性を検出するための新しいコーパスを提案します。
私たちは、言語固有の手がかりに限定されない、このタスクのための新しい注釈ガイドラインを開発し、それを英語の新しいコーパスの作成に適用します。
このコーパスは、オンライン ニュース媒体からの継続的な政治問題の報道から抽出された 411 の主観的な文と 638 の客観的な文で構成されています。
この新しいリソースは、語彙集や機械翻訳などの言語固有のツールに依存せずに、英語およびその他の言語での主観性検出モデルの開発への道を開きます。
このタスクに関して、単一言語設定と複数言語設定の両方で、最先端の多言語トランスフォーマー ベースのモデルを評価します。後者では、イタリア語の同様の既存のコーパスを使用します。
他の言語のリソースでコーパスを充実させると、タスクの結果が向上することがわかります。

要約(オリジナル)

We present a novel corpus for subjectivity detection at the sentence level. We develop new annotation guidelines for the task, which are not limited to language-specific cues, and apply them to produce a new corpus in English. The corpus consists of 411 subjective and 638 objective sentences extracted from ongoing coverage of political affairs from online news outlets. This new resource paves the way for the development of models for subjectivity detection in English and across other languages, without relying on language-specific tools like lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task, both in mono- and cross-lingual settings, the latter with a similar existing corpus in Italian language. We observe that enriching our corpus with resources in other languages improves the results on the task.

arxiv情報

著者 Francesco Antici,Andrea Galassi,Federico Ruggeri,Katerina Korre,Arianna Muti,Alessandra Bardi,Alice Fedotova,Alberto Barrón-Cedeño
発行日 2023-05-29 11:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク