SM70: A Large Language Model for Medical Devices

要約

当社は、ブランド名「JEE1」(G1 と発音し、「生命」を意味します)の下で、SpassMed の医療機器向けに特別に設計された 700 億パラメータの大規模言語モデルである SM70 を導入します。
この大規模な言語モデルにより、医療分野の質問に対してより正確かつ安全な応答が提供されます。
SM70 を微調整するために、公開されているデータセット MedAlpaca からの約 80 万のデータ エントリを使用しました。
Llama2 70B オープンソース モデルは SM70 の基盤として機能し、微調整には QLoRA 技術を採用しました。
この評価は、MEDQA – USMLE、PUBMEDQA、USMLE の 3 つのベンチマーク データセットにわたって行われ、それぞれが医学知識と推論の独自の側面を表しています。
SM70 のパフォーマンスは、Llama2 70B、Clinical Camel 70 (CC70)、GPT 3.5、GPT 4、Med-Palm などの他の注目すべき LLM と対比され、医療分野における SM70 の機能を比較して理解できます。
私たちの結果は、SM70 がこれらのデータセットで確立されたいくつかのモデルよりも優れたパフォーマンスを示し、PubMed 抄録から得られた事実に基づく質問から複雑な臨床意思決定シナリオに至るまで、さまざまな医療質問の処理における熟練度を示していることを示しています。
特に USMLE および PUBMEDQA データセットにおける SM70 の堅牢なパフォーマンスは、臨床意思決定支援および医療情報検索における効果的なツールとしての可能性を示唆しています。
有望な結果にもかかわらず、論文ではSM70が最も先進的なモデルであるGPT 4に遅れをとっている分野も認めており、特に広範な医学知識と複雑な推論を必要とするタスクにおいてさらなる開発の必要性を強調している。

要約(オリジナル)

We are introducing SM70, a 70 billion-parameter Large Language Model that is specifically designed for SpassMed’s medical devices under the brand name ‘JEE1’ (pronounced as G1 and means ‘Life’). This large language model provides more accurate and safe responses to medical-domain questions. To fine-tune SM70, we used around 800K data entries from the publicly available dataset MedAlpaca. The Llama2 70B open-sourced model served as the foundation for SM70, and we employed the QLoRA technique for fine-tuning. The evaluation is conducted across three benchmark datasets – MEDQA – USMLE, PUBMEDQA, and USMLE – each representing a unique aspect of medical knowledge and reasoning. The performance of SM70 is contrasted with other notable LLMs, including Llama2 70B, Clinical Camel 70 (CC70), GPT 3.5, GPT 4, and Med-Palm, to provide a comparative understanding of its capabilities within the medical domain. Our results indicate that SM70 outperforms several established models in these datasets, showcasing its proficiency in handling a range of medical queries, from fact-based questions derived from PubMed abstracts to complex clinical decision-making scenarios. The robust performance of SM70, particularly in the USMLE and PUBMEDQA datasets, suggests its potential as an effective tool in clinical decision support and medical information retrieval. Despite its promising results, the paper also acknowledges the areas where SM70 lags behind the most advanced model, GPT 4, thereby highlighting the need for further development, especially in tasks demanding extensive medical knowledge and intricate reasoning.

arxiv情報

著者 Anubhav Bhatti,Surajsinh Parmar,San Lee
発行日 2023-12-12 04:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL パーマリンク