KhabarChin: Automatic Detection of Important News in the Persian Language


自然言語処理 (NLP) アプローチにより、このプロセスを大幅に自動化できます。
この論文では、これまで未踏の領域での重要なニュースの検出を紹介し、ペルシア語で重要なニュースを検出するための新しいベンチマーク データセット (Khabarchin) を紹介します。
ニュース記事は 7 つの異なる著名なペルシャ通信社から取得され、7,869 個のサンプルに注釈が付けられ、データセットが作成されました。
クラス間の大きな意見の不一致と不均衡という 2 つの課題に直面し、解決策が提供されました。
さらに、ニュース記事では文脈が非常に長くなり、読者が重要な情報を特定することが困難になることが多いため、ニュース記事内の重要な文を検出する 2 番目のタスクを紹介します。


Being aware of important news is crucial for staying informed and making well-informed decisions efficiently. Natural Language Processing (NLP) approaches can significantly automate this process. This paper introduces the detection of important news, in a previously unexplored area, and presents a new benchmarking dataset (Khabarchin) for detecting important news in the Persian language. We define important news articles as those deemed significant for a considerable portion of society, capable of influencing their mindset or decision-making. The news articles are obtained from seven different prominent Persian news agencies, resulting in the annotation of 7,869 samples and the creation of the dataset. Two challenges of high disagreement and imbalance between classes were faced, and solutions were provided for them. We also propose several learning-based models, ranging from conventional machine learning to state-of-the-art transformer models, to tackle this task. Furthermore, we introduce the second task of important sentence detection in news articles, as they often come with a significant contextual length that makes it challenging for readers to identify important information. We identify these sentences in a weakly supervised manner.


著者 Hamed Hematian Hemati,Arash Lagzian,Moein Salimi Sartakhti,Hamid Beigy,Ehsaneddin Asgari
発行日 2023-12-06 09:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク