Refinement of an Epilepsy Dictionary through Human Annotation of Health-related posts on Instagram

要約

私たちは、DrugBank、MedDRA、MedlinePlus、TCMGenDIT などのさまざまな情報源から抽出した生物医学用語から構築された辞書を使用して、2010 年から 2016 年初頭までに、てんかん関連の薬剤について少なくとも 1 回言及したユーザーによる 800 万件を超える Instagram の投稿にタグを付けました。
2,947 の用語が一致する 1,771 件の投稿のランダム サンプルが人間のアノテーターによって評価され、誤検知が特定されました。
OpenAI の GPT シリーズ モデルは人間によるアノテーションと比較されました。
誤検知率が高い頻繁に使用される用語は辞書から削除されました。
注釈付きの用語の推定偽陽性率を分析した結果、Instagram の投稿で使用されている 8 つの曖昧な用語 (および同義語) が明らかになり、これらは元の辞書から削除されました。
これらの用語を削除した効果を研究するために、洗練された辞書と元の辞書を使用して知識ネットワークを構築し、両方のネットワークに対して固有ベクトル中心性分析を実行しました。
このようにして生成された洗練された辞書は、知識ネットワークの固有ベクトル中心性によって測定されるように、重要な用語のランクが大きく異なることを示します。
さらに、洗練後に得られた最も重要な用語は、より医学的な関連性が高くなります。
さらに、OpenAI の GPT シリーズ モデルは、このタスクにおいて人間のアノテーターよりも劣っていることを示します。

要約(オリジナル)

We used a dictionary built from biomedical terminology extracted from various sources such as DrugBank, MedDRA, MedlinePlus, TCMGeneDIT, to tag more than 8 million Instagram posts by users who have mentioned an epilepsy-relevant drug at least once, between 2010 and early 2016. A random sample of 1,771 posts with 2,947 term matches was evaluated by human annotators to identify false-positives. OpenAI’s GPT series models were compared against human annotation. Frequent terms with a high false-positive rate were removed from the dictionary. Analysis of the estimated false-positive rates of the annotated terms revealed 8 ambiguous terms (plus synonyms) used in Instagram posts, which were removed from the original dictionary. To study the effect of removing those terms, we constructed knowledge networks using the refined and the original dictionaries and performed an eigenvector-centrality analysis on both networks. We show that the refined dictionary thus produced leads to a significantly different rank of important terms, as measured by their eigenvector-centrality of the knowledge networks. Furthermore, the most important terms obtained after refinement are of greater medical relevance. In addition, we show that OpenAI’s GPT series models fare worse than human annotators in this task.

arxiv情報

著者 Aehong Min,Xuan Wang,Rion Brattig Correia,Jordan Rozum,Wendy R. Miller,Luis M. Rocha
発行日 2024-05-14 17:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク