要約
背景: 消化器病学における重要な診断ツールである結腸内視鏡検査は、優れた腸の準備に大きく依存しています。
ChatGPT は、医療アプリケーションでも可能性を示す創発インテリジェンスを備えた大規模な言語モデルです。
この研究は、結腸内視鏡検査の評価にボストン腸準備スケール (BBPS) を使用する際の ChatGPT の精度と一貫性を評価することを目的としています。
方法: 2020 年から 2023 年までに 233 枚の結腸内視鏡画像を遡及的に収集しました。これらの画像は、3 人の上級内視鏡医と 3 人の初心者内視鏡医によって BBPS を使用して評価されました。
さらに、ChatGPT はこれらの画像を 3 つのグループに分け、特定の微調整を行って評価しました。
一貫性は 2 回のテストを通じて評価されました。
結果: 最初のラウンドでは、ChatGPT の精度は 48.93% ~ 62.66% の間で変動し、内視鏡医の精度 76.68% ~ 77.83% に及ばなかった。
ChatGPTのカッパ値は0.52~0.53であったのに対し、内視鏡医のカッパ値は0.75~0.87でした。
結論: ChatGPT は腸準備のスコアリングに有望ですが、現時点では経験豊富な内視鏡医の精度と一貫性に匹敵しません。
今後の研究では、詳細な微調整に焦点を当てる必要があります。
要約(オリジナル)
Background: Colonoscopy, a crucial diagnostic tool in gastroenterology, depends heavily on superior bowel preparation. ChatGPT, a large language model with emergent intelligence which also exhibits potential in medical applications. This study aims to assess the accuracy and consistency of ChatGPT in using the Boston Bowel Preparation Scale (BBPS) for colonoscopy assessment. Methods: We retrospectively collected 233 colonoscopy images from 2020 to 2023. These images were evaluated using the BBPS by 3 senior endoscopists and 3 novice endoscopists. Additionally, ChatGPT also assessed these images, having been divided into three groups and undergone specific Fine-tuning. Consistency was evaluated through two rounds of testing. Results: In the initial round, ChatGPT’s accuracy varied between 48.93% and 62.66%, trailing the endoscopists’ accuracy of 76.68% to 77.83%. Kappa values for ChatGPT was between 0.52 and 0.53, compared to 0.75 to 0.87 for the endoscopists. Conclusion: While ChatGPT shows promise in bowel preparation scoring, it currently does not match the accuracy and consistency of experienced endoscopists. Future research should focus on in-depth Fine-tuning.
arxiv情報
著者 | Xiaoqiang Liu,Yubin Wang,Zicheng Huang,Boming Xu,Yilin Zeng,Xinqi Chen,Zilong Wang,Enning Yang,Xiaoxuan Lei,Yisen Huang,Xiaobo Liu |
発行日 | 2024-02-13 14:38:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google