GPT-4 passes most of the 297 written Polish Board Certification Examinations

要約

はじめに: 最近、Large Language Model (LLM) の有効性が急速に高まり、多数のアプリケーションで使用できるようになりました。
しかし、LLM を介した虚偽の情報の生成によってもたらされるリスクにより、ヘルスケアなどの機密分野での LLM の用途が大幅に制限され、その有用性と信頼性を判断するための厳密な検証の必要性が強調されています。
これまでのところ、非常に大規模なデータセットを使用して、幅広い専門分野にわたってポーランドの健康診断における LLM のパフォーマンスを広範囲に比較した研究はありません。
目的: この研究では、297 のテストで構成されるポーランド委員会認定試験 (Pa\’nstwowy Egzamin Specjalizacyjny、PES) データセット上の 3 つの生成事前学習変換器 (GPT) モデルのパフォーマンスを評価しました。
方法: PES 試験をダウンロードして処理するソフトウェア プログラムを開発し、OpenAI アプリケーション プログラミング インターフェイスを使用して GPT モデルのパフォーマンスをテストしました。
結果: 私たちの調査結果では、GPT-3.5 は分析された試験のいずれにも合格しなかったことが明らかになりました。
対照的に、GPT-4 モデルは、評価された試験の大部分に合格する能力を実証し、最新のモデルである gpt-4-0125 は、そのうちの 222 (75%) に合格しました。
GPT モデルのパフォーマンスは大きく異なり、特定の専門分野に関連する試験では優れた結果を示しましたが、他の分野では完全に不合格でした。
結論: LLM モデルの大幅な進歩と目覚ましいパフォーマンスは、ポーランドの医療分野における AI の応用拡大に大きな期待をもたらします。
たとえば、この進歩は医療専門家向けの AI ベースの医療アシスタントの開発につながり、医療サービスの効率と精度を向上させる可能性があります。

要約(オリジナル)

Introduction: Recently, the effectiveness of Large Language Models (LLMs) has increased rapidly, allowing them to be used in a great number of applications. However, the risks posed by the generation of false information through LLMs significantly limit their applications in sensitive areas such as healthcare, highlighting the necessity for rigorous validations to determine their utility and reliability. To date, no study has extensively compared the performance of LLMs on Polish medical examinations across a broad spectrum of specialties on a very large dataset. Objectives: This study evaluated the performance of three Generative Pretrained Transformer (GPT) models on the Polish Board Certification Exam (Pa\’nstwowy Egzamin Specjalizacyjny, PES) dataset, which consists of 297 tests. Methods: We developed a software program to download and process PES exams and tested the performance of GPT models using OpenAI Application Programming Interface. Results: Our findings reveal that GPT-3.5 did not pass any of the analyzed exams. In contrast, the GPT-4 models demonstrated the capability to pass the majority of the exams evaluated, with the most recent model, gpt-4-0125, successfully passing 222 (75%) of them. The performance of the GPT models varied significantly, displaying excellence in exams related to certain specialties while completely failing others. Conclusions: The significant progress and impressive performance of LLM models hold great promise for the increased application of AI in the field of medicine in Poland. For instance, this advancement could lead to the development of AI-based medical assistants for healthcare professionals, enhancing the efficiency and accuracy of medical services.

arxiv情報

著者 Jakub Pokrywka,Jeremi Kaczmarek,Edward Gorzelańczyk
発行日 2024-05-09 10:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク