VM14K: First Vietnamese Medical Benchmark

要約

医療ベンチマークは、英語を話す非英語を話すコミュニティのヘルスケアにおける言語モデルの能力を評価するために不可欠であるため、実際のアプリケーションの品質を確保するのに役立ちます。
ただし、すべてのコミュニティに十分なリソースと標準化された方法があるわけではなく、このようなベンチマークを効果的に構築および設計する方法はなく、英語以外の医療データは通常断片化されており、検証が困難です。
この問題に取り組むためのアプローチを開発し、それを適用して、34の医療専門分野で14,000の複数選択の質問を特徴とする最初のベトナムの医療質問ベンチマークを作成しました。
当社のベンチマークは、慎重にキュレーションされた健康診断や臨床記録を含む、さまざまな検証可能な情報源を使用して構築され、最終的に医療専門家が注釈を付けました。
ベンチマークには、教科書によく見られる基本的な生物学的知識から、高度な推論が必要な典型的な臨床症例研究に至るまで、4つの難易度レベルが含まれています。
この設計により、その広範なカバレッジと詳細な主題固有の専門知識のおかげで、ターゲット言語での言語モデルの幅と深さの両方の医学的理解を評価できます。
ベンチマークを3つの部分でリリースします。サンプルパブリックセット(4K質問)、完全なパブリックセット(10K質問)、リーダーボード評価に使用されるプライベートセット(2K質問)です。
各セットには、すべての医療サブフィールドと難易度が含まれています。
私たちのアプローチは他の言語でスケーラブルであり、医療ドメインでの将来の多言語ベンチマークの開発をサポートするために、データ構築パイプラインをオープンソーシングします。

要約(オリジナル)

Medical benchmarks are indispensable for evaluating the capabilities of language models in healthcare for non-English-speaking communities,therefore help ensuring the quality of real-life applications. However, not every community has sufficient resources and standardized methods to effectively build and design such benchmark, and available non-English medical data is normally fragmented and difficult to verify. We developed an approach to tackle this problem and applied it to create the first Vietnamese medical question benchmark, featuring 14,000 multiple-choice questions across 34 medical specialties. Our benchmark was constructed using various verifiable sources, including carefully curated medical exams and clinical records, and eventually annotated by medical experts. The benchmark includes four difficulty levels, ranging from foundational biological knowledge commonly found in textbooks to typical clinical case studies that require advanced reasoning. This design enables assessment of both the breadth and depth of language models’ medical understanding in the target language thanks to its extensive coverage and in-depth subject-specific expertise. We release the benchmark in three parts: a sample public set (4k questions), a full public set (10k questions), and a private set (2k questions) used for leaderboard evaluation. Each set contains all medical subfields and difficulty levels. Our approach is scalable to other languages, and we open-source our data construction pipeline to support the development of future multilingual benchmarks in the medical domain.

arxiv情報

著者 Thong Nguyen,Duc Nguyen,Minh Dang,Thai Dao,Long Nguyen,Quan H. Nguyen,Dat Nguyen,Kien Tran,Minh Tran
発行日 2025-06-13 12:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク