Text2Tree: Aligning Text Representation to the Label Tree Hierarchy for Imbalanced Medical Classification

要約

深層学習アプローチは、さまざまなテキスト タスクで有望なパフォーマンスを示します。
しかし、サンプルが非常に不均衡で不足していることが多いため、医療文書の分類には依然として苦戦しています。
外部の医療情報による補足的なセマンティクスに焦点を当てた既存の主流のアプローチとは異なり、この論文は、医療テキストにおけるデータの課題を再考し、深層学習モデルのトレーニングで内部ラベル階層のみを利用する Text2Tree と呼ばれる、フレームワークに依存しない新しいアルゴリズムを提示することを目的としています。
階層を意識したラベル表現を学習するために、ラベルの ICD コード ツリー構造をカスケード アテンション モジュールに埋め込みます。
類似性代理学習 (SSL) と非類似性混合学習 (DML) という 2 つの新しい学習スキームは、それぞれラベル表現階層に従って他のラベルのサンプルを再利用および区別することでテキスト分類を強化するために考案されました。
権威ある公開データセットと実際の医療記録を使った実験では、私たちのアプローチが古典的および高度な不均衡分類法よりも優れたパフォーマンスを安定して達成できることが示されています。

要約(オリジナル)

Deep learning approaches exhibit promising performances on various text tasks. However, they are still struggling on medical text classification since samples are often extremely imbalanced and scarce. Different from existing mainstream approaches that focus on supplementary semantics with external medical information, this paper aims to rethink the data challenges in medical texts and present a novel framework-agnostic algorithm called Text2Tree that only utilizes internal label hierarchy in training deep learning models. We embed the ICD code tree structure of labels into cascade attention modules for learning hierarchy-aware label representations. Two new learning schemes, Similarity Surrogate Learning (SSL) and Dissimilarity Mixup Learning (DML), are devised to boost text classification by reusing and distinguishing samples of other labels following the label representation hierarchy, respectively. Experiments on authoritative public datasets and real-world medical records show that our approach stably achieves superior performances over classical and advanced imbalanced classification methods.

arxiv情報

著者 Jiahuan Yan,Haojun Gao,Zhang Kai,Weize Liu,Danny Chen,Jian Wu,Jintai Chen
発行日 2023-11-28 10:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク