UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media

要約

ソーシャルメディアの人気が高まるにつれ、公衆衛生に関連する活動もますます増えています。
現在の公衆衛生分析手法には、BERT や大規模言語モデル (LLM) などの一般的なモデルが含まれています。
ただし、公衆衛生のためにドメイン内 LLM をトレーニングするコストは特に高額です。
さらに、ソーシャル メディアからのこのような種類のドメイン内データセットは一般に不均衡です。
これらの課題に取り組むには、データの増強とバランスの取れたトレーニングによってデータの不均衡の問題を克服できます。
さらに、モデルを適切にプロンプ​​トすることにより、LLM の能力を効果的に活用できます。
この論文では、LLM 説明メカニズムを採用することで、ソーシャル メディア上の公衆衛生分析のパフォーマンスを向上させる、新しい ALEX フレームワークを提案します。
結果は、当社の ALEX モデルが、ソーシャル メディア マイニング for Health 2023 (SMM4H)[1] のタスク 1 で高いスコアを獲得し、タスク 2 とタスク 4 の両方ですべての提出の中で最高のパフォーマンスを獲得したことを示しています。
私たちのコードは https://github.com/YanJiangJerry/ALEX で公開されています。

要約(オリジナル)

As social media becomes increasingly popular, more and more activities related to public health emerge. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). However, the costs of training in-domain LLMs for public health are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally imbalanced. To tackle these challenges, the data imbalance issue can be overcome by data augmentation and balanced training. Moreover, the ability of the LLMs can be effectively utilized by prompting the model properly. In this paper, a novel ALEX framework is proposed to improve the performance of public health analysis on social media by adopting an LLMs explanation mechanism. Results show that our ALEX model got the best performance among all submissions in both Task 2 and Task 4 with a high score in Task 1 in Social Media Mining for Health 2023 (SMM4H)[1]. Our code has been released at https:// github.com/YanJiangJerry/ALEX.

arxiv情報

著者 Yan Jiang,Ruihong Qiu,Yi Zhang,Zi Huang
発行日 2023-09-12 07:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク