ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents

要約

このペーパーでは、ツイート データ内の分類の課題を明示的に対象とした、#SMM4H (ソーシャル メディア マイニング フォー ヘルス) 2024 ワークショップのタスク 3 とタスク 5 への参加について説明します。
タスク 3 は、屋外環境が社会不安の症状に及ぼす影響について議論するツイートを中心としたマルチクラス分類タスクです。
タスク 5 には、子供の医学的障害を報告するツイートに焦点を当てた二項分類タスクが含まれます。
BART-base や T5-small などの事前トレーニング済みのエンコーダー/デコーダー モデルからの転移学習を適用して、特定のツイートのセットのラベルを識別しました。
また、モデルのパフォーマンスへの影響を確認するために、いくつかのデータ拡張手法も紹介しました。
最終的に、システムはタスク 3 で最高の F1 スコア 0.627 を獲得し、タスク 5 で最高の F1 スコア 0.841 を獲得しました。

要約(オリジナル)

This paper describes our participation in Task 3 and Task 5 of the #SMM4H (Social Media Mining for Health) 2024 Workshop, explicitly targeting the classification challenges within tweet data. Task 3 is a multi-class classification task centered on tweets discussing the impact of outdoor environments on symptoms of social anxiety. Task 5 involves a binary classification task focusing on tweets reporting medical disorders in children. We applied transfer learning from pre-trained encoder-decoder models such as BART-base and T5-small to identify the labels of a set of given tweets. We also presented some data augmentation methods to see their impact on the model performance. Finally, the systems obtained the best F1 score of 0.627 in Task 3 and the best F1 score of 0.841 in Task 5.

arxiv情報

著者 Hoang-Thang Ta,Abu Bakar Siddiqur Rahman,Lotfollah Najjar,Alexander Gelbukh
発行日 2024-04-30 17:06:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク