ADSumm: Annotated Ground-truth Summary Datasets for Disaster Tweet Summarization


Twitter などのオンライン ソーシャル メディア プラットフォームは、災害発生時に貴重な情報を提供します。
文献によれば、災害要約には 2 種類のアプローチ、すなわち教師ありアプローチと教師なしアプローチが存在します。
この論文では、7 つの異なる国に属する自然災害と人為的災害の両方で構成される 8 つの災害イベントに対する注釈付きのグラウンドトゥルースの概要を追加する ADSumm を紹介します。
私たちの実験分析では、新しく追加されたデータセットにより、教師あり要​​約アプローチのパフォーマンスが ROUGE-N F1 スコアに関して 8 ~ 28% 向上することが示されています。
さらに、新たに注釈が付けられたデータセットでは、各入力ツイートにカテゴリ ラベルを追加しました。これにより、要約内のさまざまなカテゴリから確実に適切にカバーできるようになります。
さらに、関連性ラベルとキーフレーズという 2 つの機能を追加しました。これらは、それぞれツイートの品質に関する情報と、ツイートを要約に含めることに関する説明を提供します。


Online social media platforms, such as Twitter, provide valuable information during disaster events. Existing tweet disaster summarization approaches provide a summary of these events to aid government agencies, humanitarian organizations, etc., to ensure effective disaster response. In the literature, there are two types of approaches for disaster summarization, namely, supervised and unsupervised approaches. Although supervised approaches are typically more effective, they necessitate a sizable number of disaster event summaries for testing and training. However, there is a lack of good number of disaster summary datasets for training and evaluation. This motivates us to add more datasets to make supervised learning approaches more efficient. In this paper, we present ADSumm, which adds annotated ground-truth summaries for eight disaster events which consist of both natural and man-made disaster events belonging to seven different countries. Our experimental analysis shows that the newly added datasets improve the performance of the supervised summarization approaches by 8-28% in terms of ROUGE-N F1-score. Moreover, in newly annotated dataset, we have added a category label for each input tweet which helps to ensure good coverage from different categories in summary. Additionally, we have added two other features relevance label and key-phrase, which provide information about the quality of a tweet and explanation about the inclusion of the tweet into summary, respectively. For ground-truth summary creation, we provide the annotation procedure adapted in detail, which has not been described in existing literature. Experimental analysis shows the quality of ground-truth summary is very good with Coverage, Relevance and Diversity.


著者 Piyush Kumar Garg,Roshni Chakraborty,Sourav Kumar Dandapat
発行日 2024-05-10 15:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SI パーマリンク