要約
Topic Modeling (TM) は、自然言語理解 (NLU) と自然言語処理 (NLP) の研究部門からのもので、主要なトピックの要約やトピックの変更など、大規模なドキュメントやデータセットから洞察に満ちた分析を容易にすることを目的としています。
この種の発見は、ビッグデータ分析への影響により、実際のアプリケーションでより一般的になっています.
この研究では、ソーシャルメディアとヘルスケアのドメインから、一般的な潜在的ディリクレ配分 (LDA) メソッドを適用して、コロナウイルスに関するスウェーデンの新聞記事のトピックの変化をモデル化します。
2020 年 1 月 17 日から 2021 年 3 月 13 日までの約 1 年 2 か月間のトピックの変化に関する 6515 の記事、適用された方法、および統計を含む、作成したコーパスについて説明します。
モデリングであり、パンデミックの時代における同様のケーススタディに刺激を与え、社会経済的影響の研究や臨床およびヘルスケア分析をサポートすることができます。
私たちのデータとソース コードは、https://github で公開されています。
com/poethan/Swed_Covid_TM キーワード: 潜在的ディリクレ配分 (LDA);
トピックモデリング;
コロナウイルス;
パンデミック;
自然言語理解;
BERTトピック
要約(オリジナル)
Topic Modelling (TM) is from the research branches of natural language understanding (NLU) and natural language processing (NLP) that is to facilitate insightful analysis from large documents and datasets, such as a summarisation of main topics and the topic changes. This kind of discovery is getting more popular in real-life applications due to its impact on big data analytics. In this study, from the social-media and healthcare domain, we apply popular Latent Dirichlet Allocation (LDA) methods to model the topic changes in Swedish newspaper articles about Coronavirus. We describe the corpus we created including 6515 articles, methods applied, and statistics on topic changes over approximately 1 year and two months period of time from 17th January 2020 to 13th March 2021. We hope this work can be an asset for grounding applications of topic modelling and can be inspiring for similar case studies in an era with pandemics, to support socio-economic impact research as well as clinical and healthcare analytics. Our data and source code are openly available at https://github. com/poethan/Swed_Covid_TM Keywords: Latent Dirichlet Allocation (LDA); Topic Modelling; Coronavirus; Pandemics; Natural Language Understanding; BERT-topic
arxiv情報
著者 | Bernadeta Griciūtė,Lifeng Han,Hao Li,Goran Nenadic |
発行日 | 2023-02-17 16:47:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google