HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring

要約

大規模言語モデル(LLM)の誤用は潜在的なリスクをもたらすため、機械生成テキスト(MGT)検出の開発が動機づけられている。既存の文献は主にバイナリ、文書レベルの検出に集中しており、人間とLLMが共同で作成したテキストを無視している。そこで本稿では、人間とAIによる共著の下で、きめ細かなMGT検出の可能性を探る。我々は、きめ細かな検出が、AI比率を数値化した共著テキスト検出への道を開く可能性があることを示唆する。具体的には、HACo-Detというデータセットを提案する。このデータセットは、単語レベルの帰属ラベルを用いた自動パイプラインによって、人間とAIが共著したテキストを生成する。我々は、7つの一般的な文書レベル検出器を単語レベル検出に一般化するために改修する。そして、これらの検出器をHACo-Det上で単語レベルと文レベルの両方の検出タスクで評価する。その結果、メトリックベースの手法では平均F1スコアが0.462と、きめ細かい検出が困難であることがわかった。しかしながら、きめ細かな共著テキスト検出は解決には程遠いというのが我々の主張である。さらに、性能に影響を与える要因、例えばコンテキストウィンドウを分析し、現在の手法の限界を強調し、改善の可能性を指摘する。

要約(オリジナル)

The misuse of large language models (LLMs) poses potential risks, motivating the development of machine-generated text (MGT) detection. Existing literature primarily concentrates on binary, document-level detection, thereby neglecting texts that are composed jointly by human and LLM contributions. Hence, this paper explores the possibility of fine-grained MGT detection under human-AI coauthoring. We suggest fine-grained detectors can pave pathways toward coauthored text detection with a numeric AI ratio. Specifically, we propose a dataset, HACo-Det, which produces human-AI coauthored texts via an automatic pipeline with word-level attribution labels. We retrofit seven prevailing document-level detectors to generalize them to word-level detection. Then we evaluate these detectors on HACo-Det on both word- and sentence-level detection tasks. Empirical results show that metric-based methods struggle to conduct fine-grained detection with a 0.462 average F1 score, while finetuned models show superior performance and better generalization across domains. However, we argue that fine-grained co-authored text detection is far from solved. We further analyze factors influencing performance, e.g., context window, and highlight the limitations of current methods, pointing to potential avenues for improvement.

arxiv情報

著者 Zhixiong Su,Yichen Wang,Herun Wan,Zhaohan Zhang,Minnan Luo
発行日 2025-06-03 14:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring はコメントを受け付けていません

FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models

要約

大規模言語モデル(LLM)は様々な領域で最先端の結果を達成しているが、その開発は依然として膨大な量の一般公開データに依存しており、データ不足や領域固有の機密情報へのアクセス不足が懸念されている。Federated Learning (FL)は、生データを共有することなく、事前に訓練されたLLMの分散化された微調整を可能にすることで、これらの課題に対処するための魅力的なフレームワークを提示する。しかし、FL設定における事前学習済みLLMの互換性と性能は、まだほとんど検討されていない。我々は、一般的なNLP、金融、医療、コーディングの4つの多様なドメインにおけるLLMの連携微調整を評価するために設計された、初のベンチマークスイートであるFlowerTune LLM Leaderboardを紹介する。各ドメインには、連携された命令チューニングデータセットとドメイン固有の評価指標が含まれています。我々の結果は、共同、オープンソース、コミュニティ主導のアプローチによって得られたものであり、フェデレートされた設定の下で、異なる集約と微調整戦略を持つ26の事前訓練されたLLMの包括的な比較を初めて提供し、モデルの性能、リソースの制約、ドメイン適応に関する実用的な洞察を提供する。この研究は、実世界のアプリケーションのために、プライバシーを保護し、ドメインに特化したLLMを開発するための基礎を築くものである。

要約(オリジナル)

Large Language Models (LLMs) have achieved state-of-the-art results across diverse domains, yet their development remains reliant on vast amounts of publicly available data, raising concerns about data scarcity and the lack of access to domain-specific, sensitive information. Federated Learning (FL) presents a compelling framework to address these challenges by enabling decentralized fine-tuning on pre-trained LLMs without sharing raw data. However, the compatibility and performance of pre-trained LLMs in FL settings remain largely under explored. We introduce the FlowerTune LLM Leaderboard, a first-of-its-kind benchmarking suite designed to evaluate federated fine-tuning of LLMs across four diverse domains: general NLP, finance, medical, and coding. Each domain includes federated instruction-tuning datasets and domain-specific evaluation metrics. Our results, obtained through a collaborative, open-source and community-driven approach, provide the first comprehensive comparison across 26 pre-trained LLMs with different aggregation and fine-tuning strategies under federated settings, offering actionable insights into model performance, resource constraints, and domain adaptation. This work lays the foundation for developing privacy-preserving, domain-specialized LLMs for real-world applications.

arxiv情報

著者 Yan Gao,Massimo Roberto Scamarcia,Javier Fernandez-Marques,Mohammad Naseri,Chong Shen Ng,Dimitris Stripelis,Zexi Li,Tao Shen,Jiamu Bai,Daoyuan Chen,Zikai Zhang,Rui Hu,InSeo Song,Lee KangYoon,Hong Jia,Ting Dang,Junyan Wang,Zheyuan Liu,Daniel Janes Beutel,Lingjuan Lyu,Nicholas D. Lane
発行日 2025-06-03 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models はコメントを受け付けていません

Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused

要約

大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて卓越した性能を発揮してきた。しかし、LLMは時として不正確で事実に反する出力を生成することがあり、これは一般に「幻覚」と呼ばれる現象である。この問題に取り組むため、最近の研究では、元のモデルと幻覚を誘発した素人モデルとの対比的解読が検討され、有望な結果が得られている。しかしながら、このアプローチは、粗いコントラストと単純な減算操作により、オリジナルのLLMの出力分布を乱す可能性があり、潜在的にエラーにつながる可能性がある。本論文では、LOL (LOwer Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを紹介する。最終層のみに注目する先行手法とは異なり、我々のアプローチは、コントラスト復号時に多層フュージョンを可能にするために、下位層からのコントラスト情報を統合する。さらに、指示ガイダンスを活用した真実性リフォーカスモジュールを組み込むことで、対比的デコーディングにおける真実性をさらに向上させる。一般に公開されている4つのデータセットを用いた広範な実験により、LOLフレームワークが、ほとんどの場合において既存のベースラインを凌駕しながら、幻覚を大幅に軽減することが実証された。再現性を確保するために、我々のコードとデータを公開する予定である。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance across various natural language processing tasks. However, they occasionally generate inaccurate and counterfactual outputs, a phenomenon commonly referred to as ‘hallucinations”. To tackle this issue, recent studies have explored contrastive decoding between the original model and an amateur model with induced hallucination, showing promising results. Nevertheless, this approach can disrupt the original LLM’s output distribution due to coarse contrast and simple subtraction operations, potentially leading to errors. In this paper, we introduce a novel contrastive decoding framework, termed LOL (LOwer Layer Matters). Unlike prior methods that focus solely on the final layer, our approach integrates contrastive information from lower layers to enable multi-layer fusion during contrastive decoding. Additionally, we incorporate a truthfulness refocused module that leverages instruction guidance to further improve truthfulness in contrastive decoding. Extensive experiments on four publicly available datasets demonstrate that the LOL framework significantly mitigates hallucination while outperforming existing baselines in most cases. For reproducibility, we will release our code and data upon acceptance.

arxiv情報

著者 Dingwei Chen,Feiteng Fang,Shiwen Ni,Feng Liang,Xiping Hu,Ahmadreza Argha,Hamid Alinejad-Rokny,Min Yang,Chengming Li
発行日 2025-06-03 15:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused はコメントを受け付けていません

Expanding before Inferring: Enhancing Factuality in Large Language Models through Premature Layers Interpolation

要約

大規模言語モデル(LLM)は、テキスト理解と生成において目覚ましい能力を発揮する。しかし、一般に”幻覚”と呼ばれる、事実と矛盾した出力を生成する傾向は、依然として重要な課題である。検索ベースや推論時間修正法などの既存のアプローチは、主に入力または出力レベルでこの問題に対処しており、本質的な情報洗練プロセスや未熟なレイヤーの役割を見落としていることが多い。一方、アライメントや微調整に基づく手法はリソース集約的である。本論文では、PLI(Premature Layers Interpolation)を提案する。PLIは、訓練不要で、プラグアンドプレイの新規介入手法であり、事実性を高めるように設計されている。PLIは、隣接するレイヤーとの数学的補間により形成された早すぎるレイヤーを挿入することで、幻覚を軽減する。PLIは、安定した拡散とサンプリングステップから着想を得て、LLMの情報処理と伝達の深さを拡張し、事実の一貫性を向上させる。公開されている4つのデータセットを用いた実験により、PLIはほとんどのケースで既存のベースラインを上回りながら、幻覚を効果的に減少させることが実証された。さらに分析を進めると、レイヤー補間の成功はLLMの内部メカニズムと密接に関連していることが示唆された。再現性を促進するために、我々のコードとデータは承認され次第公開する。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable capabilities in text understanding and generation. However, their tendency to produce factually inconsistent outputs, commonly referred to as ”hallucinations”, remains a critical challenge. Existing approaches, such as retrieval-based and inference-time correction methods, primarily address this issue at the input or output level, often overlooking the intrinsic information refinement process and the role of premature layers. Meanwhile, alignment- and fine-tuning-based methods are resource-intensive. In this paper, we propose PLI (Premature Layers Interpolation), a novel, training-free, and plug-and-play intervention designed to enhance factuality. PLI mitigates hallucinations by inserting premature layers formed through mathematical interpolation with adjacent layers. Inspired by stable diffusion and sampling steps, PLI extends the depth of information processing and transmission in LLMs, improving factual coherence. Experiments on four publicly available datasets demonstrate that PLI effectively reduces hallucinations while outperforming existing baselines in most cases. Further analysis suggests that the success of layer interpolation is closely linked to LLMs’ internal mechanisms. To promote reproducibility, we will release our code and data upon acceptance.

arxiv情報

著者 Dingwei Chen,Ziqiang Liu,Feiteng Fang,Chak Tou Leong,Shiwen Ni,Ahmadreza Argha,Hamid Alinejad-Rokny,Min Yang,Chengming Li
発行日 2025-06-03 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Expanding before Inferring: Enhancing Factuality in Large Language Models through Premature Layers Interpolation はコメントを受け付けていません

Meta-Learning Neural Mechanisms rather than Bayesian Priors

要約

子どもは、大規模な言語モデルが必要とするデータよりも数桁少ないデータにさらされているにもかかわらず、言語を習得する。メタ学習は、人間のような学習バイアスをニューラルネットワークアーキテクチャに統合する方法として提案されており、記号モデルの構造化された一般化とニューラルネットワークモデルのスケーラビリティの両方を兼ね備えている。しかし、メタ学習は具体的にモデルに何を付与するのだろうか?我々は形式言語のメタ学習を調査し、これまでの主張とは異なり、メタ学習されたモデルは、単純性を中心に組織化されたデータセットでメタ学習された場合、単純性に基づく事前分布を学習しないことを発見した。むしろ、メタ学習によって(カウンタなどの)神経メカニズムがモデルに刷り込まれ、それが下流のタスクにおけるネットワークの認知的プリミティブのように機能するという証拠を発見した。最も驚くべきことに、1つの形式言語に対するメタトレーニングは、5000の異なる形式言語に対するメタトレーニングと同程度のモデル改善をもたらすことがわかった。これらを総合すると、我々の発見は、効率的なメタ学習パラダイムのための実用的な示唆を与えるとともに、記号理論と神経メカニズムを結びつけるための新たな理論的洞察を提供する。

要約(オリジナル)

Children acquire language despite being exposed to several orders of magnitude less data than large language models require. Meta-learning has been proposed as a way to integrate human-like learning biases into neural-network architectures, combining both the structured generalizations of symbolic models with the scalability of neural-network models. But what does meta-learning exactly imbue the model with? We investigate the meta-learning of formal languages and find that, contrary to previous claims, meta-trained models are not learning simplicity-based priors when meta-trained on datasets organised around simplicity. Rather, we find evidence that meta-training imprints neural mechanisms (such as counters) into the model, which function like cognitive primitives for the network on downstream tasks. Most surprisingly, we find that meta-training on a single formal language can provide as much improvement to a model as meta-training on 5000 different formal languages, provided that the formal language incentivizes the learning of useful neural mechanisms. Taken together, our findings provide practical implications for efficient meta-learning paradigms and new theoretical insights into linking symbolic theories and neural mechanisms.

arxiv情報

著者 Michael Goodale,Salvador Mascarenhas,Yair Lakretz
発行日 2025-06-03 15:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Meta-Learning Neural Mechanisms rather than Bayesian Priors はコメントを受け付けていません

KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning

要約

大学レベルの英語コースでは、毎年何千万もの小論文が書かれ、採点されている。学生は、精読として知られるプロセスを通じて文学的・文化的テキストを分析するよう求められる。精読はクリティカル・シンキングの基礎とみなされ、大学の授業で必修科目として広く採用されているにもかかわらず、これまで大規模な言語モデル(LLM)で評価されたことはなく、MMLUのような複数分野のベンチマークには、文学は科目として含まれていません。このギャップを埋めるために、我々は解釈的推論を評価するための最初の精読ベンチマークであるKRISTEVAを発表する。KRISTEVAでは、LLMが文学作品をどの程度理解し、推論できるかをテストするために、精読プロセスのさまざまな要素を近似した、徐々に難しくなる3つの課題セットを提案する:1)文体特徴の抽出、2)パラメトリック知識からの関連文脈情報の検索、3)文体と外部文脈間のマルチホップ推論である。我々のベースラインの結果では、最先端のLLMは大学レベルの精読能力(精度49.7%~69.7%)を持っているものの、11のタスクのうち10において、その性能は経験豊富な人間の評価者よりも劣っていることがわかった。

要約(オリジナル)

Each year, tens of millions of essays are written and graded in college-level English courses. Students are asked to analyze literary and cultural texts through a process known as close reading, in which they gather textual details to formulate evidence-based arguments. Despite being viewed as a basis for critical thinking and widely adopted as a required element of university coursework, close reading has never been evaluated on large language models (LLMs), and multi-discipline benchmarks like MMLU do not include literature as a subject. To fill this gap, we present KRISTEVA, the first close reading benchmark for evaluating interpretive reasoning, consisting of 1331 multiple-choice questions adapted from classroom data. With KRISTEVA, we propose three progressively more difficult sets of tasks to approximate different elements of the close reading process, which we use to test how well LLMs may seem to understand and reason about literary works: 1) extracting stylistic features, 2) retrieving relevant contextual information from parametric knowledge, and 3) multi-hop reasoning between style and external contexts. Our baseline results find that, while state-of-the-art LLMs possess some college-level close reading competency (accuracy 49.7% – 69.7%), their performances still trail those of experienced human evaluators on 10 out of our 11 tasks.

arxiv情報

著者 Peiqi Sui,Juan Diego Rodriguez,Philippe Laban,Dean Murphy,Joseph P. Dexter,Richard Jean So,Samuel Baker,Pramit Chaudhuri
発行日 2025-06-03 15:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning はコメントを受け付けていません

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

要約

オープンベンチマークは、再現性と透明性を提供し、大規模な言語モデルの評価と発展に不可欠である。しかし、そのアクセスのしやすさから、テストセット汚染の標的となりやすい。この研究では、バックドア攻撃を利用して、損失、ロジット、モデルの内部詳細へのアクセスを必要とせずに、トレーニング中にベンチマークテストセットを使用したモデルを識別するフレームワークであるDyePackを紹介します。銀行が強盗をマークするためにお金に染料パックを混ぜるように、DyePackはテストデータにバックドアサンプルを混ぜて、そのデータで学習したモデルにフラグを立てる。我々は、確率的なターゲットを持つ複数のバックドアを組み込んだ原理的な設計を提案し、すべてのモデルにフラグを立てる際に正確な偽陽性率(FPR)の計算を可能にする。これにより、検出されたすべての汚染事例に対して強力な証拠を提供しながら、冤罪を証明的に防ぐことができる。DyePackを3つのデータセットで5つのモデルで評価した。多肢選択問題では、8つのバックドアを用いて、MMLU-Proで0.000073%、Big-Bench-Hardで0.000017%という低いFPRを保証し、すべての汚染モデルの検出に成功しました。オープンエンドの生成タスクでは、Alpaca上で6つのバックドアを用いて、0.127%の誤検出率ですべての汚染モデルを検出することができます。

要約(オリジナル)

Open benchmarks are essential for evaluating and advancing large language models, offering reproducibility and transparency. However, their accessibility makes them likely targets of test set contamination. In this work, we introduce DyePack, a framework that leverages backdoor attacks to identify models that used benchmark test sets during training, without requiring access to the loss, logits, or any internal details of the model. Like how banks mix dye packs with their money to mark robbers, DyePack mixes backdoor samples with the test data to flag models that trained on it. We propose a principled design incorporating multiple backdoors with stochastic targets, enabling exact false positive rate (FPR) computation when flagging every model. This provably prevents false accusations while providing strong evidence for every detected case of contamination. We evaluate DyePack on five models across three datasets, covering both multiple-choice and open-ended generation tasks. For multiple-choice questions, it successfully detects all contaminated models with guaranteed FPRs as low as 0.000073% on MMLU-Pro and 0.000017% on Big-Bench-Hard using eight backdoors. For open-ended generation tasks, it generalizes well and identifies all contaminated models on Alpaca with a guaranteed false positive rate of just 0.127% using six backdoors.

arxiv情報

著者 Yize Cheng,Wenxiao Wang,Mazda Moayeri,Soheil Feizi
発行日 2025-06-03 15:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors はコメントを受け付けていません

Towards a Japanese Full-duplex Spoken Dialogue System

要約

全二重音声対話システムは、音声の重なりやバックチャネルといった人間の会話の双方向性を同時にモデル化できるシステムであり、近年大きな注目を集めている。しかし、日本語を対象とした全二重音声対話システムの研究は限られており、日本語での開発研究も少ないのが現状である。本論文では、英語の全二重対話モデルであるMoshiをベースに構築された、日本語で初めて公開された全二重音声対話モデルを紹介する。このモデルは、大規模な日本語音声対話データに対する事前学習と、高品質なステレオ音声対話データに対する微調整という2段階のプロセスを通じて学習される。さらに、マルチストリーム音声合成システムによって生成された合成対話データを取り込むことで、モデルの性能を向上させる。評価実験の結果、学習されたモデルは、自然さと意味性の両方において、日本語のベースラインモデルを凌駕することが実証された。

要約(オリジナル)

Full-duplex spoken dialogue systems, which can model simultaneous bidirectional features of human conversations such as speech overlaps and backchannels, have attracted significant attention recently. However, the study of full-duplex spoken dialogue systems for the Japanese language has been limited, and the research on their development in Japanese remains scarce. In this paper, we present the first publicly available full-duplex spoken dialogue model in Japanese, which is built upon Moshi, a full-duplex dialogue model in English. Our model is trained through a two-stage process: pre-training on a large-scale spoken dialogue data in Japanese, followed by fine-tuning on high-quality stereo spoken dialogue data. We further enhance the model’s performance by incorporating synthetic dialogue data generated by a multi-stream text-to-speech system. Evaluation experiments demonstrate that the trained model outperforms Japanese baseline models in both naturalness and meaningfulness.

arxiv情報

著者 Atsumoto Ohashi,Shinya Iizuka,Jingjing Jiang,Ryuichiro Higashinaka
発行日 2025-06-03 15:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.AS | Towards a Japanese Full-duplex Spoken Dialogue System はコメントを受け付けていません

Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC

要約

教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多言語音声処理は、言語識別(LID)や自動音声認識(ASR)のようなタスクで高い性能を達成している。しかし、これらのモデルは微調整の際に限られたリソースで苦労している。本稿では、凍結された上流学習、部分的な微調整、低ランク適応を含む、SFMを適応させるための複数の戦略を探求することで、ML-SUPERB 2.0上での多言語LIDとASRを強化する。さらに、少数ショットの設定におけるパフォーマンスギャップを緩和するためにデータ増強を採用し、正則化のためにLID Connectionist Temporal Classification (CTC)損失を導入する。我々のアプローチは、ML-SUPERB 2.0のベースラインと比較して、LID精度で14%の相対的な改善、ASR CERで30%の相対的な削減を達成し、Interspeech 2025 ML-SUPERB 2.0チャレンジで2位を獲得した。

要約(オリジナル)

Multilingual speech processing with self-supervised or supervised pre-trained Speech Foundation Models (SFM) has achieved strong performance on tasks like Language Identification (LID) and Automatic Speech Recognition (ASR). However, these models struggle with limited resources during fine-tuning. This paper enhances multilingual LID and ASR on ML-SUPERB 2.0 by exploring multiple strategies for adapting SFMs, including frozen upstream training, partial fine-tuning, and low-rank adaptation. Furthermore, we employ data augmentation to mitigate performance gaps in few-shot settings and introduce LID Connectionist Temporal Classification (CTC) loss for regularization. Our approach achieves a 14% relative improvement in LID accuracy and a 30% relative reduction in ASR CER over the baseline on ML-SUPERB 2.0, securing second place in the Interspeech 2025 ML-SUPERB 2.0 Challenge.

arxiv情報

著者 Qingzheng Wang,Jiancheng Sun,Yifan Peng,Shinji Watanabe
発行日 2025-06-03 15:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC はコメントを受け付けていません

Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis

要約

背景大規模言語モデル(LLM)は、臨床診療をサポートする大きな可能性を示してきた。Chat GPT4とその前身を除けば、LLM、特に主要でより強力な推論モデルクラスのLLMは、プライマリ・ケアの領域を含む医学専門試験問題の対象となったことはほとんどない。この論文では、2025年5月現在の主要なLLM(o3、Claude Opus 4、Grok3、Gemini 2.5 Pro)のプライマリ・ケア教育における能力を、特にMRCGP(Member of the Royal College of General Practitioners)形式の試験問題に答える際にテストすることを目的とした。 方法:o3、Claude Opus 4、Grok3、Gemini 2.5 Proは、2025年5月25日に英国王立総合医学会(Royal College of General Practitioners)のGP SelfTestから無作為に選ばれた100問の多肢選択問題に解答するよう課された。問題には、文字情報、検査結果、臨床画像が含まれていた。各モデルは英国のGPとして回答するよう促され、完全な問題情報が提供された。各問題は各モデルが1回ずつ受験した。回答はGP SelfTestが提供した正解と照らし合わせて採点された。 結果o3、Claude Opus 4、Grok3、Gemini 2.5 Proの合計スコアは、それぞれ99.0%、95.0%、95.0%、95.0%であった。同問題の平均ピアスコアは73.0%であった。 考察o3は最高のパフォーマンスを示したが、他の主要なモデルのパフォーマンスは互いに同等であり、o3を大幅に下回ることはなかった。これらの知見は、プライマリ・ケアの提供をサポートするLLM、特にプライマリ・ケアの臨床データについて特別に訓練された推論モデルのケースを強化するものである。

要約(オリジナル)

Background: Large language models (LLMs) have demonstrated substantial potential to support clinical practice. Other than Chat GPT4 and its predecessors, few LLMs, especially those of the leading and more powerful reasoning model class, have been subjected to medical specialty examination questions, including in the domain of primary care. This paper aimed to test the capabilities of leading LLMs as of May 2025 (o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro) in primary care education, specifically in answering Member of the Royal College of General Practitioners (MRCGP) style examination questions. Methods: o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro were tasked to answer 100 randomly chosen multiple choice questions from the Royal College of General Practitioners GP SelfTest on 25 May 2025. Questions included textual information, laboratory results, and clinical images. Each model was prompted to answer as a GP in the UK and was provided with full question information. Each question was attempted once by each model. Responses were scored against correct answers provided by GP SelfTest. Results: The total score of o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro was 99.0%, 95.0%, 95.0%, and 95.0%, respectively. The average peer score for the same questions was 73.0%. Discussion: All models performed remarkably well, and all substantially exceeded the average performance of GPs and GP registrars who had answered the same questions. o3 demonstrated the best performance, while the performances of the other leading models were comparable with each other and were not substantially lower than that of o3. These findings strengthen the case for LLMs, particularly reasoning models, to support the delivery of primary care, especially those that have been specifically trained on primary care clinical data.

arxiv情報

著者 Richard Armitage
発行日 2025-06-03 15:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC | Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis はコメントを受け付けていません