要約
世界は、人類文明の発展と地球上の人類の幸福を妨げる数多くの課題に直面しています。
持続可能な開発目標 (SDGs) は、2030 年までにこれらの世界的な課題に対処するために、2015 年に国連によって策定されました。自然言語処理技術は、研究文献内で SDGs に関する議論を明らかにするのに役立ちます。
私たちは、1) Scopus データベースからコンテンツを取得し、5 つの SDG グループ専用のデータセットを準備するための完全に自動化されたパイプラインを提案します。
2) トピック モデリングを実行します。これは、テキスト データの大規模なコレクション内のトピックを識別するために使用される統計手法です。
3) キーワードベースの検索とトピック頻度時系列抽出によるトピック探索を可能にします。
トピックのモデリングでは、大規模なテキスト文書コーパスに適用できるようにスケールアップされた BERTopic のスタックを活用し (数十万の文書から数百のトピックを見つけます)、i) 科学的要約を表現するための新しい LLM ベースの埋め込み計算を導入します。
連続空間、および ii) 新しい大きなデータセットに最適な構成を効率的に見つけるためのハイパーパラメーター オプティマイザー。
さらに、トピックの時間的変化を報告するインタラクティブなダッシュボード上で結果を視覚化します。
結果は検査および探索可能になり、トピック モデリング プロセスの解釈可能性に貢献します。
私たちが提案するビッグテキスト データセット用の LLM ベースのトピック モデリング パイプラインにより、ユーザーは 2006 年から 2023 年の期間における科学要約内の SDGs に対する態度の進化に関する洞察を得ることができます。
当社のシステムを使用すると、すべての結果を再現できます。
ワークフローは一般化して、いつでもテキスト文書の大規模なコーパスに適用できます。
要約(オリジナル)
The world is facing a multitude of challenges that hinder the development of human civilization and the well-being of humanity on the planet. The Sustainable Development Goals (SDGs) were formulated by the United Nations in 2015 to address these global challenges by 2030. Natural language processing techniques can help uncover discussions on SDGs within research literature. We propose a completely automated pipeline to 1) fetch content from the Scopus database and prepare datasets dedicated to five groups of SDGs; 2) perform topic modeling, a statistical technique used to identify topics in large collections of textual data; and 3) enable topic exploration through keywords-based search and topic frequency time series extraction. For topic modeling, we leverage the stack of BERTopic scaled up to be applied on large corpora of textual documents (we find hundreds of topics on hundreds of thousands of documents), introducing i) a novel LLM-based embeddings computation for representing scientific abstracts in the continuous space and ii) a hyperparameter optimizer to efficiently find the best configuration for any new big datasets. We additionally produce the visualization of results on interactive dashboards reporting topics’ temporal evolution. Results are made inspectable and explorable, contributing to the interpretability of the topic modeling process. Our proposed LLM-based topic modeling pipeline for big-text datasets allows users to capture insights on the evolution of the attitude toward SDGs within scientific abstracts in the 2006-2023 time span. All the results are reproducible by using our system; the workflow can be generalized to be applied at any point in time to any big corpus of textual documents.
arxiv情報
著者 | Francesco Invernici,Francesca Curati,Jelena Jakimov,Amirhossein Samavi,Anna Bernasconi |
発行日 | 2024-11-05 09:37:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google