KhabarChin: Automatic Detection of Important News in the Persian Language

要約

重要なニュースを認識することは、情報を常に入手し、十分な情報に基づいた意思決定を効率的に行うために非常に重要です。
自然言語処理 (NLP) アプローチにより、このプロセスを大幅に自動化できます。
この論文では、これまで未踏の領域での重要なニュースの検出を紹介し、ペルシア語で重要なニュースを検出するための新しいベンチマーク データセット (Khabarchin) を紹介します。
私たちは重要なニュース記事を、社会のかなりの部分にとって重要であり、彼らの考え方や意思決定に影響を与える可能性があるとみなされる記事と定義します。
ニュース記事は 7 つの異なる著名なペルシャ通信社から取得され、7,869 個のサンプルに注釈が付けられ、データセットが作成されました。
クラス間の大きな意見の不一致と不均衡という 2 つの課題に直面し、解決策が提供されました。
また、このタスクに取り組むために、従来の機械学習から最先端の変換モデルに至るまで、いくつかの学習ベースのモデルを提案します。
さらに、ニュース記事では文脈が非常に長くなり、読者が重要な情報を特定することが困難になることが多いため、ニュース記事内の重要な文を検出する 2 番目のタスクを紹介します。
これらの文は弱い監視下で識別されます。

要約(オリジナル)

Being aware of important news is crucial for staying informed and making well-informed decisions efficiently. Natural Language Processing (NLP) approaches can significantly automate this process. This paper introduces the detection of important news, in a previously unexplored area, and presents a new benchmarking dataset (Khabarchin) for detecting important news in the Persian language. We define important news articles as those deemed significant for a considerable portion of society, capable of influencing their mindset or decision-making. The news articles are obtained from seven different prominent Persian news agencies, resulting in the annotation of 7,869 samples and the creation of the dataset. Two challenges of high disagreement and imbalance between classes were faced, and solutions were provided for them. We also propose several learning-based models, ranging from conventional machine learning to state-of-the-art transformer models, to tackle this task. Furthermore, we introduce the second task of important sentence detection in news articles, as they often come with a significant contextual length that makes it challenging for readers to identify important information. We identify these sentences in a weakly supervised manner.

arxiv情報

著者 Hamed Hematian Hemati,Arash Lagzian,Moein Salimi Sartakhti,Hamid Beigy,Ehsaneddin Asgari
発行日 2023-12-06 09:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク