要約
現在の医療AIシステムは、静的なテキストと質問回答のタスクで主に訓練および評価されているため、現実世界の臨床推論を再現できないことがよくあります。
これらのチューニング方法とベンチマークは、証拠に基づいた推論や注意散漫な情報の処理などの重要な側面を見落としています。
このギャップを埋めるために、実際の診断シナリオをシミュレートする新しいベンチマークを導入し、USMLE標準に合わせたノイズと難易度のレベルを統合します。
さらに、静的データセットを会話形式に変換して、反復的な推論プロセスをより適切にキャプチャするダイアログベースの微調整を検討します。
実験は、ダイアログチューニングモデルが従来の方法よりも優れていることを示しており、マルチラウンド推論シナリオで9.64 \%$ $ 9.64 \%$、騒々しい環境で6.18 \%$の精度があります。
私たちの調査結果は、臨床的に整合して堅牢な医療AIシステムを進めるための有望なアプローチとしての対話の調整を強調しています。
要約(オリジナル)
Current medical AI systems often fail to replicate real-world clinical reasoning, as they are predominantly trained and evaluated on static text and question-answer tasks. These tuning methods and benchmarks overlook critical aspects like evidence-based reasoning and handling distracting information. To bridge this gap, we introduce a novel benchmark that simulates real-world diagnostic scenarios, integrating noise and difficulty levels aligned with USMLE standards. Moreover, we explore dialogue-based fine-tuning, which transforms static datasets into conversational formats to better capture iterative reasoning processes. Experiments show that dialogue-tuned models outperform traditional methods, with improvements of $9.64\%$ in multi-round reasoning scenarios and $6.18\%$ in accuracy in a noisy environment. Our findings highlight dialogue tuning as a promising approach for advancing clinically aligned and robust medical AI systems.
arxiv情報
著者 | Zijie Liu,Xinyu Zhao,Jie Peng,Zhuangdi Zhu,Qingyu Chen,Xia Hu,Tianlong Chen |
発行日 | 2025-01-29 18:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google