ADSumm: Annotated Ground-truth Summary Datasets for Disaster Tweet Summarization

要約

Twitter などのオンライン ソーシャル メディア プラットフォームは、災害発生時に貴重な情報を提供します。
既存のツイート災害概要アプローチは、政府機関や人道団体などが効果的な災害対応を確保できるように、これらのイベントの概要を提供します。
文献によれば、災害要約には 2 種類のアプローチ、すなわち教師ありアプローチと教師なしアプローチが存在します。
通常、教師ありアプローチの方が効果的ですが、テストとトレーニングのために大量の災害イベントの概要が必要になります。
しかし、訓練や評価に使用できる十分な数の災害概要データセットが不足しています。
これにより、より多くのデータセットを追加して、教師あり学習アプローチをより効率的にすることができます。
この論文では、7 つの異なる国に属する自然災害と人為的災害の両方で構成される 8 つの災害イベントに対する注釈付きのグラウンドトゥルースの概要を追加する ADSumm を紹介します。
私たちの実験分析では、新しく追加されたデータセットにより、教師あり要​​約アプローチのパフォーマンスが ROUGE-N F1 スコアに関して 8 ~ 28% 向上することが示されています。
さらに、新たに注釈が付けられたデータセットでは、各入力ツイートにカテゴリ ラベルを追加しました。これにより、要約内のさまざまなカテゴリから確実に適切にカバーできるようになります。
さらに、関連性ラベルとキーフレーズという 2 つの機能を追加しました。これらは、それぞれツイートの品質に関する情報と、ツイートを要約に含めることに関する説明を提供します。
グラウンドトゥルースの要約作成のために、既存の文献では説明されていない詳細に適応したアノテーション手順を提供します。
実験分析によると、グラウンドトゥルースの要約の品質は、カバレッジ、関連性、多様性において非常に優れていることが示されています。

要約(オリジナル)

Online social media platforms, such as Twitter, provide valuable information during disaster events. Existing tweet disaster summarization approaches provide a summary of these events to aid government agencies, humanitarian organizations, etc., to ensure effective disaster response. In the literature, there are two types of approaches for disaster summarization, namely, supervised and unsupervised approaches. Although supervised approaches are typically more effective, they necessitate a sizable number of disaster event summaries for testing and training. However, there is a lack of good number of disaster summary datasets for training and evaluation. This motivates us to add more datasets to make supervised learning approaches more efficient. In this paper, we present ADSumm, which adds annotated ground-truth summaries for eight disaster events which consist of both natural and man-made disaster events belonging to seven different countries. Our experimental analysis shows that the newly added datasets improve the performance of the supervised summarization approaches by 8-28% in terms of ROUGE-N F1-score. Moreover, in newly annotated dataset, we have added a category label for each input tweet which helps to ensure good coverage from different categories in summary. Additionally, we have added two other features relevance label and key-phrase, which provide information about the quality of a tweet and explanation about the inclusion of the tweet into summary, respectively. For ground-truth summary creation, we provide the annotation procedure adapted in detail, which has not been described in existing literature. Experimental analysis shows the quality of ground-truth summary is very good with Coverage, Relevance and Diversity.

arxiv情報

著者 Piyush Kumar Garg,Roshni Chakraborty,Sourav Kumar Dandapat
発行日 2024-05-10 15:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク