要約
有害事象 (ADE) の抽出は、特に非公式テキストに適用される場合、デジタル ファーマコビジランスの中核となるタスクの 1 つです。
このタスクは、BERT などの大規模な事前トレーニング済み言語モデルを使用して、自然言語処理コミュニティによって解決されてきました。
文献では多数の Transformer ベースのアーキテクチャが使用されていますが、どれがより優れたパフォーマンスを発揮するのか、またその理由は不明です。
したがって、この論文では、非公式テキストの ADE 抽出のための 19 の Transformer ベースのモデルの広範な評価と分析を実行します。
非公式性 (フォーラムの投稿やツイート) のレベルを上げながら、2 つのデータセットで考慮したすべてのモデルのパフォーマンスを比較します。
また、純粋に Transformer ベースのモデルを、一般的に使用される 2 つの追加処理層 (CRF および LSTM) と組み合わせて、モデルのパフォーマンスに対するそれらの影響を分析します。
さらに、確立された特徴重要度手法 (SHAP) を使用して、モデルのパフォーマンスとモデルを記述する一連の特徴 (モデル カテゴリ (自動エンコーディング、自動回帰、テキストからテキスト)、事前トレーニング ドメイン、ゼロからのトレーニング) を関連付けます。
、パラメータの数で表したモデル サイズ。
分析の最後に、実験データから導き出せる持ち帰りメッセージのリストを特定します。
要約(オリジナル)
Adverse Event (ADE) extraction is one of the core tasks in digital pharmacovigilance, especially when applied to informal texts. This task has been addressed by the Natural Language Processing community using large pre-trained language models, such as BERT. Despite the great number of Transformer-based architectures used in the literature, it is unclear which of them has better performances and why. Therefore, in this paper we perform an extensive evaluation and analysis of 19 Transformer-based models for ADE extraction on informal texts. We compare the performance of all the considered models on two datasets with increasing levels of informality (forums posts and tweets). We also combine the purely Transformer-based models with two commonly-used additional processing layers (CRF and LSTM), and analyze their effect on the models performance. Furthermore, we use a well-established feature importance technique (SHAP) to correlate the performance of the models with a set of features that describe them: model category (AutoEncoding, AutoRegressive, Text-to-Text), pretraining domain, training from scratch, and model size in number of parameters. At the end of our analyses, we identify a list of take-home messages that can be derived from the experimental data.
arxiv情報
著者 | Simone Scaboro,Beatrice Portellia,Emmanuele Chersoni,Enrico Santus,Giuseppe Serra |
発行日 | 2023-06-08 15:25:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google