Balanced and Explainable Social Media Analysis for Public Health with Large Language Models

要約

ソーシャルメディアの人気が高まるにつれ、公衆衛生活動がますます活発になり、パンデミックの監視や政府の意思決定において注目に値します。
現在の公衆衛生分析手法には、BERT や大規模言語モデル (LLM) などの一般的なモデルが含まれています。
LLM の最近の進歩により、特定のドメイン データセットで微調整されることで知識を理解する強力な能力が示されていますが、特定の公衆衛生タスクごとにドメイン内 LLM をトレーニングするコストは特に高価です。
さらに、ソーシャル メディアからのこのような種類のドメイン内データセットは一般に非常に不均衡であるため、LLM チューニングの効率が妨げられます。
これらの課題に取り組むために、データの不均衡の問題は、ソーシャル メディア データセットの高度なデータ拡張手法によって克服できます。
さらに、モデルを適切にプロンプ​​トすることで、LLM の能力を効果的に活用できます。
上記の議論を踏まえて、この論文では、公衆衛生に関するソーシャルメディア分析のための新しい ALEX フレームワークを提案します。
具体的には、データの不均衡の問題を解決するために拡張パイプラインが開発されています。
さらに、LLM に BERT モデルからの予測結果を要求することによって、LLM の説明メカニズムが提案されます。
Social Media Mining for Health 2023 (SMM4H) コンテストで 3 つのタスクで広範な実験が実施され、2 つのタスクで 1 位にランクされたことで、提案された ALEX 手法の優れたパフォーマンスが実証されました。
私たちのコードは https://github.com/YanJiangJerry/ALEX でリリースされました。

要約(オリジナル)

As social media becomes increasingly popular, more and more public health activities emerge, which is worth noting for pandemic monitoring and government decision-making. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). Although recent progress in LLMs has shown a strong ability to comprehend knowledge by being fine-tuned on specific domain datasets, the costs of training an in-domain LLM for every specific public health task are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally highly imbalanced, which will hinder the efficiency of LLMs tuning. To tackle these challenges, the data imbalance issue can be overcome by sophisticated data augmentation methods for social media datasets. In addition, the ability of the LLMs can be effectively utilised by prompting the model properly. In light of the above discussion, in this paper, a novel ALEX framework is proposed for social media analysis on public health. Specifically, an augmentation pipeline is developed to resolve the data imbalance issue. Furthermore, an LLMs explanation mechanism is proposed by prompting an LLM with the predicted results from BERT models. Extensive experiments conducted on three tasks at the Social Media Mining for Health 2023 (SMM4H) competition with the first ranking in two tasks demonstrate the superior performance of the proposed ALEX method. Our code has been released in https://github.com/YanJiangJerry/ALEX.

arxiv情報

著者 Yan Jiang,Ruihong Qiu,Yi Zhang,Peng-Fei Zhang
発行日 2023-09-12 04:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク