A Structured Bangla Dataset of Disease-Symptom Associations to Improve Diagnostic Accuracy

要約

疾病症候群のデータセットは重要であり、医学研究、疾患診断、臨床的意思決定、およびAI主導の健康管理アプリケーションの需要があります。
これらのデータセットは、特定の疾患に関連する症状パターンを特定し、診断精度を改善し、早期検出を可能にするのに役立ちます。
この研究で提示されたデータセットは、さまざまなオンラインソース、医学文献、公開されている健康データベースから病気と症​​状の関係を体系的に編集します。
このデータは、ピアレビューされた医学記事、臨床症例研究、および疾病症候群協会の報告を分析することで収集されました。
検証済みの医療ソースのみがデータセットに含まれていましたが、非ピアレビューおよび逸話源からのソースは除外されました。
データセットは表形式で構成されており、最初の列は病気を表し、残りの列は症状を表します。
各症状細胞にはバイナリ値(1または0)が含まれており、症状が疾患に関連しているかどうかを示します(存在する場合は1、不在の場合は0)。
これにより、この構造化された表現により、データセットは、機械学習ベースの疾患予測、臨床意思決定支援システム、疫学研究など、幅広い用途に非常に役立ちます。
疾病症候群データセットの分野にはいくつかの進歩がありますが、バングラ言語の構造化されたデータセットには大きなギャップがあります。
このデータセットは、多言語医療情報学ツールの開発を促進し、過小評価されている言語コミュニティの疾患予測モデルを改善することにより、そのギャップを埋めることを目的としています。
さらなる開発には、地域固有の疾患と、診断パフォーマンスを向上させるための症状関連のさらなる微調整を含める必要があります

要約(オリジナル)

Disease-symptom datasets are significant and in demand for medical research, disease diagnosis, clinical decision-making, and AI-driven health management applications. These datasets help identify symptom patterns associated with specific diseases, thus improving diagnostic accuracy and enabling early detection. The dataset presented in this study systematically compiles disease-symptom relationships from various online sources, medical literature, and publicly available health databases. The data was gathered through analyzing peer-reviewed medical articles, clinical case studies, and disease-symptom association reports. Only the verified medical sources were included in the dataset, while those from non-peer-reviewed and anecdotal sources were excluded. The dataset is structured in a tabular format, where the first column represents diseases, and the remaining columns represent symptoms. Each symptom cell contains a binary value (1 or 0), indicating whether a symptom is associated with a disease (1 for presence, 0 for absence). Thereby, this structured representation makes the dataset very useful for a wide range of applications, including machine learning-based disease prediction, clinical decision support systems, and epidemiological studies. Although there are some advancements in the field of disease-symptom datasets, there is a significant gap in structured datasets for the Bangla language. This dataset aims to bridge that gap by facilitating the development of multilingual medical informatics tools and improving disease prediction models for underrepresented linguistic communities. Further developments should include region-specific diseases and further fine-tuning of symptom associations for better diagnostic performance

arxiv情報

著者 Abdullah Al Shafi,Rowzatul Zannat,Abdul Muntakim,Mahmudul Hasan
発行日 2025-06-16 15:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク