An Entity-based Claim Extraction Pipeline for Real-world Biomedical Fact-checking

要約

タイトル: バイオメディカルファクトチェックのためのエンティティベースの主張抽出パイプライン
要約:
– 存在するバイオメディカルの主張のファクトチェックモデルは、通常、合成または適切な言葉のデータでトレーニングされ、ソーシャルメディアのコンテンツに移行するのは困難です。
– この不一致を緩和するために、Wuehrl&Klinger(2022)は、テキスト内の医療エンティティに基づいて簡潔な主張を抽出することを提案します。
– しかし、彼らの研究は2つの制限があります。1つ目は、ゴールド注釈のエンティティに依存しているため、関連エンティティを自動的に検出する必要がある現実世界のアプリケーションの実現可能性が評価できないことです。2つ目は、彼らは元のトークンで主張エンティティを表現しているため、ファクトチェックのパフォーマンスを制限する用語の不一致となる可能性があることです。
– 両方の課題を理解するために、私たちは名前付きエンティティ認識とエンティティリンキングによる用語の正規化を組み込んだ医療ツイートの主張抽出パイプラインを提案します。
– 我々は、自動NERはゴールド注釈を使用することと比較してパフォーマンスに影響を与えることを示しましたが、ファクトチェックのパフォーマンスは未変更のツイートを入力するよりもかなり改善されます。
– ただし、エンティティをその標準形に正規化することは、パフォーマンスを改善しない。

要約(オリジナル)

Existing fact-checking models for biomedical claims are typically trained on synthetic or well-worded data and hardly transfer to social media content. This mismatch can be mitigated by adapting the social media input to mimic the focused nature of common training claims. To do so, Wuehrl & Klinger (2022) propose to extract concise claims based on medical entities in the text. However, their study has two limitations: First, it relies on gold-annotated entities. Therefore, its feasibility for a real-world application cannot be assessed since this requires detecting relevant entities automatically. Second, they represent claim entities with the original tokens. This constitutes a terminology mismatch which potentially limits the fact-checking performance. To understand both challenges, we propose a claim extraction pipeline for medical tweets that incorporates named entity recognition and terminology normalization via entity linking. We show that automatic NER does lead to a performance drop in comparison to using gold annotations but the fact-checking performance still improves considerably over inputting the unchanged tweets. Normalizing entities to their canonical forms does, however, not improve the performance.

arxiv情報

著者 Amelie Wührl,Lara Grimminger,Roman Klinger
発行日 2023-04-11 15:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク