Dataset of Quotation Attribution in German News Articles

要約

誰が誰に何を言ったかを抽出することは、オンライン ニュース記事などの今日の豊富なデータにおける人間のコミュニケーションを分析する上で重要な部分です。
しかし、ドイツのニュース記事にはこのタスク用の注釈付きデータが不足しているため、実現可能なシステムの品質と使いやすさが大幅に制限されています。
これを解決するために、WIKINEWS に基づくドイツのニュース記事の引用帰属用に、クリエイティブ コモンズでライセンス供与された、無料で利用できる新しいデータセットを紹介します。
このデータセットは、1,000 のドキュメント (250,000 トークン) にわたる厳選された高品質のアノテーションを、きめ細かいアノテーション スキーマで提供し、データセットのさまざまな下流での使用を可能にします。
注釈は、誰が何を言ったかを指定するだけでなく、どのような文脈で、誰に対してどのように発言したかを指定し、引用の種類を定義します。
アノテーション スキーマを指定し、データセットの作成を記述し、定量的分析を提供します。
さらに、適切な評価指標について説明し、引用帰属に 2 つの既存のシステムを適用し、データセットの有用性を評価するための結果について議論し、下流タスクでのデータセットのユースケースを概説します。

要約(オリジナル)

Extracting who says what to whom is a crucial part in analyzing human communication in today’s abundance of data such as online news articles. Yet, the lack of annotated data for this task in German news articles severely limits the quality and usability of possible systems. To remedy this, we present a new, freely available, creative-commons-licensed dataset for quotation attribution in German news articles based on WIKINEWS. The dataset provides curated, high-quality annotations across 1000 documents (250,000 tokens) in a fine-grained annotation schema enabling various downstream uses for the dataset. The annotations not only specify who said what but also how, in which context, to whom and define the type of quotation. We specify our annotation schema, describe the creation of the dataset and provide a quantitative analysis. Further, we describe suitable evaluation metrics, apply two existing systems for quotation attribution, discuss their results to evaluate the utility of our dataset and outline use cases of our dataset in downstream tasks.

arxiv情報

著者 Fynn Petersen-Frey,Chris Biemann
発行日 2024-04-25 17:19:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク