On Preserving the Knowledge of Long Clinical Texts

要約

入院記録、退院概要、経過記録などの臨床テキストには、臨床上の意思決定に使用できる豊富で貴重な情報が含まれています。
ただし、臨床テキストの処理にトランスフォーマー エンコーダを使用する場合の深刻なボトルネックは、これらのモデルの入力長制限に起因します。トランスフォーマー ベースのエンコーダは固定長の入力を使用します。
したがって、これらのモデルは、医療テキストの処理中に入力の一部を破棄します。
臨床テキストの一部のみが処理されると、臨床テキストから重要な知識が失われるリスクがあります。
この論文では、トランスエンコーダの集合アンサンブルを使用して、モデル内の長い臨床文書の知識を保存する新しい方法を提案します。
以前の研究ではアンサンブルまたは集約のいずれかを使用していましたが、私たちはこれらの方法を融合した効果を研究しました。
私たちは、死亡率予測と在院日数予測という 2 つの臨床転帰タスクに関して、事前にトレーニングされたいくつかの BERT のようなトランスフォーマー エンコーダーをトレーニングしました。
私たちの方法は、長い臨床記録に関する予測タスクに関して、すべてのベースライン モデルよりも優れた結果を達成しました。
我々は、複数の非構造化高次元データセットを組み合わせることにより、MIMIC-III 臨床データベースの入院記録に対して広範な実験を実施し、既存のアプローチに対する我々の方法の有効性と優位性を実証しました。
この研究は、アンサンブルと集計を融合することで、臨床予測タスク、特に死亡率と入院期間のモデルのパフォーマンスが向上することを示しています。

要約(オリジナル)

Clinical texts, such as admission notes, discharge summaries, and progress notes, contain rich and valuable information that can be used for clinical decision making. However, a severe bottleneck in using transformer encoders for processing clinical texts comes from the input length limit of these models: transformer-based encoders use fixed-length inputs. Therefore, these models discard part of the inputs while processing medical text. There is a risk of losing vital knowledge from clinical text if only part of it is processed. This paper proposes a novel method to preserve the knowledge of long clinical texts in the models using aggregated ensembles of transformer encoders. Previous studies used either ensemble or aggregation, but we studied the effects of fusing these methods. We trained several pre-trained BERT-like transformer encoders on two clinical outcome tasks: mortality prediction and length of stay prediction. Our method achieved better results than all baseline models for prediction tasks on long clinical notes. We conducted extensive experiments on the MIMIC-III clinical database’s admission notes by combining multiple unstructured and high-dimensional datasets, demonstrating our method’s effectiveness and superiority over existing approaches. This study shows that fusing ensemble and aggregation improves the model performance for clinical prediction tasks, particularly the mortality and the length of hospital stay.

arxiv情報

著者 Mohammad Junayed Hasan,Suhra Noor,Mohammad Ashrafuzzaman Khan
発行日 2025-01-01 01:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク