RuCCoD: Towards Automated ICD Coding in Russian

要約

この研究では、生物医学的資源が限られている言語であるロシア語での臨床コーディングの自動化の実現可能性を調査しています。
ICDコーディング用の新しいデータセットを提示します。これには、10,000を超えるエンティティと1,500を超える独自のICDコードが注釈が付けられた電子ヘルスレコード(EHR)の診断フィールドが含まれます。
このデータセットは、BERT、LORAを含むLlama、RAGを含むいくつかの最先端モデルのベンチマークとして機能し、ドメイン全体(PubMed Abstractsから医療診断まで)および用語(UMLS概念からICDコードまで)を越えた転送学習を調べる追加の実験があります。
次に、最高のパフォーマンスモデルを適用して、2017年から2021年までの患者の歴史を含む社内EHRデータセットにラベルを付けます。慎重にキュレーションされたテストセットで実施された実験は、自動予測コードでのトレーニングが、物理学者からの手動注釈付きデータと比較して精度が大幅に改善されることを示しています。
私たちの調査結果は、ロシア語のようなリソース制限言語で臨床コーディングを自動化する可能性についての貴重な洞察を提供し、これらの文脈での臨床効率とデータの精度を高めることができると考えています。

要約(オリジナル)

This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

arxiv情報

著者 Aleksandr Nesterov,Andrey Sakhovskiy,Ivan Sviridov,Airat Valiev,Vladimir Makharev,Petr Anokhin,Galina Zubkova,Elena Tutubalina
発行日 2025-02-28 17:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB パーマリンク