要約
5W1Hの質問 – 誰、何、いつ、どこで、なぜ、どのように – ジャーナリズムで一般的に使用され、記事がイベントを明確かつ体系的に説明することを保証します。
それらに答えることは、要約、クラスタリング、ニュース集約などのタスクの重要な前提条件です。
この論文では、最初の自動抽出パイプラインを設計して、フランスのニュース記事から5W1H情報を取得します。
アルゴリズムのパフォーマンスを評価するために、4つのヒトアノテーターがマークされた5W1Hの回答を含む250のケベックニュース記事のコーパスも作成します。
私たちの結果は、このタスクでパイプラインも大規模な言語モデルGPT-4Oと同様に機能することを示しています。
要約(オリジナル)
The 5W1H questions — who, what, when, where, why and how — are commonly used in journalism to ensure that an article describes events clearly and systematically. Answering them is a crucial prerequisites for tasks such as summarization, clustering, and news aggregation. In this paper, we design the first automated extraction pipeline to get 5W1H information from French news articles. To evaluate the performance of our algorithm, we also create a corpus of 250 Quebec news articles with 5W1H answers marked by four human annotators. Our results demonstrate that our pipeline performs as well in this task as the large language model GPT-4o.
arxiv情報
著者 | Maxence Verhaverbeke,Julie A. Gramaccia,Richard Khoury |
発行日 | 2025-06-06 15:28:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google