Social Media and Artificial Intelligence for Sustainable Cities and Societies: A Water Quality Analysis Use-case

要約

この論文は、水質分析という非常に重要な社会的課題に焦点を当てています。
社会の経済的および社会的発展における重要な要素の 1 つである水の供給とその品質の確保は、常に公的機関の最優先事項の 1 つであり続けています。
水の品質を確保するために、オフライン調査やオンライン調査など、水道ネットワークを監視および評価するためのさまざまな方法が使用されます。
しかし、これらの調査には参加者数が限られていたり、調査の手間がかかるため頻度が低かったりするなど、いくつかの制限があります。
この論文では、データ駆動型の意思決定のためにソーシャル メディアから水関連の投稿を自動的に収集および分析する自然言語処理 (NLP) フレームワークを提案します。
提案されたフレームワークは、(i) テキスト分類と (ii) トピック モデリングの 2 つのコンポーネントで構成されます。
テキスト分類については、複数の大規模言語モデル (LLM) を組み込んだメリットフュージョン ベースのフレームワークを提案します。LLM に重みを割り当てるために、異なる重み選択および最適化方法が使用されます。
トピック モデリングでは、BERTopic ライブラリを使用して、水関連のツイートに隠されたトピック パターンを発見しました。
また、世界的、地域的、国固有の問題や水関連の懸念を調査するために、さまざまな地域や国から発信された関連ツイートを分析しました。
また、大規模なデータセットを収集して手動で注釈を付けました。これにより、このテーマに関する将来の研究が促進されることが期待されます。

要約(オリジナル)

This paper focuses on a very important societal challenge of water quality analysis. Being one of the key factors in the economic and social development of society, the provision of water and ensuring its quality has always remained one of the top priorities of public authorities. To ensure the quality of water, different methods for monitoring and assessing the water networks, such as offline and online surveys, are used. However, these surveys have several limitations, such as the limited number of participants and low frequency due to the labor involved in conducting such surveys. In this paper, we propose a Natural Language Processing (NLP) framework to automatically collect and analyze water-related posts from social media for data-driven decisions. The proposed framework is composed of two components, namely (i) text classification, and (ii) topic modeling. For text classification, we propose a merit-fusion-based framework incorporating several Large Language Models (LLMs) where different weight selection and optimization methods are employed to assign weights to the LLMs. In topic modeling, we employed the BERTopic library to discover the hidden topic patterns in the water-related tweets. We also analyzed relevant tweets originating from different regions and countries to explore global, regional, and country-specific issues and water-related concerns. We also collected and manually annotated a large-scale dataset, which is expected to facilitate future research on the topic.

arxiv情報

著者 Muhammad Asif Auyb,Muhammad Tayyab Zamir,Imran Khan,Hannia Naseem,Nasir Ahmad,Kashif Ahmad
発行日 2024-04-23 12:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク