Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for Inferring Online Health Texts

要約

Web やソーシャル プラットフォームで利用できるユーザー作成のテキストは、多くの場合長く、意味的に難しいため、注釈を付けるのが困難です。
問題領域がより専門化するにつれて、人間によるアノテーションを取得することはますます困難になります。
たとえば、多くの健康 NLP 問題では、ドメインの専門家がアノテーション パイプラインの一部である必要があります。
したがって、この一連の限られたデータの問題に対処できる、低リソースの NLP ソリューションを開発することが重要です。
この研究では、さまざまなオンライン医療リソースやコミュニティから得た低リソースの健康 NLP タスクをモデル化する手段として、抽象意味表現 (AMR) グラフを採用しています。
AMR は、複数の文の入力を表現し、複雑な用語を抽象化し、相互参照トークン間の長距離関係をモデル化できるため、オンライン健康テキストのモデル化に適しています。
したがって、AMR は、高度に複雑なテキストを推論する事前トレーニング済み言語モデルの能力を向上させます。
私たちの実験では、テキストの埋め込みをセマンティック グラフの埋め込みで強化することで、6 つの低リソースの健全性 NLP タスクのパフォーマンスを向上できることがわかりました。
私たちのアプローチはタスクに依存せず、標準的なテキスト分類パイプラインに簡単にマージできます。
私たちは、Flesch Kincaid Reading Level と Syntactic Complexity という 2 つのテキストの複雑さの尺度のレンズを通してパフォーマンスを分析することにより、AMR が複雑なテキストのモデリングに役立つことを実験的に検証します。
私たちのエラー分析では、AMR を導入した言語モデルが複雑なテキストに対してより優れたパフォーマンスを示し、一般的に複雑さが変化しても予測の分散が少ないことが示されています。

要約(オリジナル)

User-generated texts available on the web and social platforms are often long and semantically challenging, making them difficult to annotate. Obtaining human annotation becomes increasingly difficult as problem domains become more specialized. For example, many health NLP problems require domain experts to be a part of the annotation pipeline. Thus, it is crucial that we develop low-resource NLP solutions able to work with this set of limited-data problems. In this study, we employ Abstract Meaning Representation (AMR) graphs as a means to model low-resource Health NLP tasks sourced from various online health resources and communities. AMRs are well suited to model online health texts as they can represent multi-sentence inputs, abstract away from complex terminology, and model long-distance relationships between co-referring tokens. AMRs thus improve the ability of pre-trained language models to reason about high-complexity texts. Our experiments show that we can improve performance on 6 low-resource health NLP tasks by augmenting text embeddings with semantic graph embeddings. Our approach is task agnostic and easy to merge into any standard text classification pipeline. We experimentally validate that AMRs are useful in the modeling of complex texts by analyzing performance through the lens of two textual complexity measures: the Flesch Kincaid Reading Level and Syntactic Complexity. Our error analysis shows that AMR-infused language models perform better on complex texts and generally show less predictive variance in the presence of changing complexity.

arxiv情報

著者 Joseph Gatto,Sarah M. Preum
発行日 2023-09-18 15:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク