A Corpus for Sentence-level Subjectivity Detection on English News Articles

要約

私たちは、言語固有の手がかりに限定されない、文レベルの主観性検出のための新しい注釈ガイドラインを開発します。
私たちはガイドラインを使用して、物議を醸しているトピックに関する英語のニュース記事から抽出された 638 の客観的な文と 411 の主観的な文のコーパスである NewsSD-ENG を収集します。
私たちのコーパスは、語彙集や機械翻訳などの言語固有のツールに依存せずに、英語およびその他の言語の主観性を検出する道を開きます。
私たちは、単一言語、複数言語、および複数言語の設定におけるタスクに関して、最先端の多言語トランスフォーマー ベースのモデルを評価します。
この目的のために、既存のイタリア語コーパスに再注釈を付けます。
多言語設定でトレーニングされたモデルがタスクで最高のパフォーマンスを達成することが観察されています。

要約(オリジナル)

We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.

arxiv情報

著者 Francesco Antici,Andrea Galassi,Federico Ruggeri,Katerina Korre,Arianna Muti,Alessandra Bardi,Alice Fedotova,Alberto Barrón-Cedeño
発行日 2024-05-24 12:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク