要約
新型コロナウイルス感染症のパンデミックにより、ほとんどの科学コミュニティの研究課題が変化し、その結果、医学、ウイルス学、疫学、経済、心理学など、さまざまな分野で圧倒的な研究論文が生み出されるようになりました。
いくつかのオープンアクセスのコーパスと文献ハブが設立されました。
中でも、新型コロナウイルス感染症オープンリサーチデータセット (CORD-19) は、100 万件を超える論文を収集してインデックス付けすることにより、2 年半にわたって科学的貢献を体系的に収集してきました。
ここでは、科学要約の CORD-19 テキスト コーパスを検査するための方法および関連する視覚化ツールである CORD-19 Topic Visualizer (CORToViz) を紹介します。
私たちの手法は、最新のテクノロジー (大規模な言語モデルを含む) を慎重に選択したことに基づいており、その結果、直交次元に沿って記事をクラスタリングするためのアーキテクチャと、時間的トピック マイニングのための抽出技術が得られます。
トピック検査はインタラクティブなダッシュボードによってサポートされており、トピックの内容をワードクラウドとして、トピックの傾向を時系列として高速にワンクリックで視覚化できます。また、任意に選択した時間枠に沿ってトピックの出現の重要性を分析するための簡単に実行できる統計テストが装備されています。
。
データの準備と結果の視覚化のプロセスは完全に一般的であり、テキスト文書のあらゆるコーパスに事実上適用できるため、他のコンテキストへの効果的な適応に適しています。
要約(オリジナル)
The COVID-19 pandemic has changed the research agendas of most scientific communities, resulting in an overwhelming production of research articles in a variety of domains, including medicine, virology, epidemiology, economy, psychology, and so on. Several open-access corpora and literature hubs were established; among them, the COVID-19 Open Research Dataset (CORD-19) has systematically gathered scientific contributions for 2.5 years, by collecting and indexing over one million articles. Here, we present the CORD-19 Topic Visualizer (CORToViz), a method and associated visualization tool for inspecting the CORD-19 textual corpus of scientific abstracts. Our method is based upon a careful selection of up-to-date technologies (including large language models), resulting in an architecture for clustering articles along orthogonal dimensions and extraction techniques for temporal topic mining. Topic inspection is supported by an interactive dashboard, providing fast, one-click visualization of topic contents as word clouds and topic trends as time series, equipped with easy-to-drive statistical testing for analyzing the significance of topic emergence along arbitrarily selected time windows. The processes of data preparation and results visualization are completely general and virtually applicable to any corpus of textual documents – thus suited for effective adaptation to other contexts.
arxiv情報
著者 | Francesco Invernici,Anna Bernasconi,Stefano Ceri |
発行日 | 2023-10-05 22:16:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google