Analyzing values about gendered language reform in LLMs’ revisions

要約

テキスト改訂の一般的なLLMユースケースでは、ジェンダー付きの役割名詞のLLMの改訂(例:屋外/女性/男性)とそのような改訂の正当化を研究します。
私たちは、英語のフェミニストと包括的な言語改革との整合性を評価します。
社会言語学からの洞察に基づいて、LLMがそのような改革の適用における同じ文脈効果に敏感であるかどうかをさらに評価し、そのような効果の広範な証拠を見つけます。
価値アライメントへの影響について説明します。

要約(オリジナル)

Within the common LLM use case of text revision, we study LLMs’ revision of gendered role nouns (e.g., outdoorsperson/woman/man) and their justifications of such revisions. We evaluate their alignment with feminist and trans-inclusive language reforms for English. Drawing on insight from sociolinguistics, we further assess if LLMs are sensitive to the same contextual effects in the application of such reforms as people are, finding broad evidence of such effects. We discuss implications for value alignment.

arxiv情報

著者 Jules Watson,Xi Wang,Raymond Liu,Suzanne Stevenson,Barend Beekhuizen
発行日 2025-05-27 16:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Analyzing values about gendered language reform in LLMs’ revisions はコメントを受け付けていません

PHISH in MESH: Korean Adversarial Phonetic Substitution and Phonetic-Semantic Feature Integration Defense

要約

悪意のあるユーザーは、ヘイトスピーチの検出を回避するために音声の代替をますます採用しているため、研究者はそのような戦略を調査しました。
ただし、2つの重要な課題が残っています。
第一に、蓄音機の性質による音声摂動に対する脆弱性にもかかわらず、既存の研究は韓国語を見落としています。
第二に、以前の作業は、主に建築防御を開発するのではなく、データセットの構築に焦点を合わせてきました。
これらの課題に対処するために、(1)韓国のライティングシステムの音韻特性を活用するハングル(Phish)の音声情報に基づいた代替、および(2)建築レベルで音声情報を組み込むことにより、ディテクターの堅牢性を高めるセマンティック音量性の特徴(メッシュ)の混合エンコードを提案します。
私たちの実験結果は、摂動と摂動のないデータセットの両方に対する提案された方法の有効性を示しており、検出パフォーマンスを改善するだけでなく、悪意のあるユーザーが採用した現実的な敵対的行動を反映していることを示唆しています。

要約(オリジナル)

As malicious users increasingly employ phonetic substitution to evade hate speech detection, researchers have investigated such strategies. However, two key challenges remain. First, existing studies have overlooked the Korean language, despite its vulnerability to phonetic perturbations due to its phonographic nature. Second, prior work has primarily focused on constructing datasets rather than developing architectural defenses. To address these challenges, we propose (1) PHonetic-Informed Substitution for Hangul (PHISH) that exploits the phonological characteristics of the Korean writing system, and (2) Mixed Encoding of Semantic-pHonetic features (MESH) that enhances the detector’s robustness by incorporating phonetic information at the architectural level. Our experimental results demonstrate the effectiveness of our proposed methods on both perturbed and unperturbed datasets, suggesting that they not only improve detection performance but also reflect realistic adversarial behaviors employed by malicious users.

arxiv情報

著者 Byungjun Kim,Minju Kim,Hyeonchu Park,Bugeun Kim
発行日 2025-05-27 16:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PHISH in MESH: Korean Adversarial Phonetic Substitution and Phonetic-Semantic Feature Integration Defense はコメントを受け付けていません

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

要約

音声ベースの相互作用モデルの必要性が高まっているため、エンドツーエンドの音声言語モデル(SLM)が有望なソリューションとして浮上しています。
これらのモデルでは、意味のある信頼できる人間の相互作用のための包括的な世界知識が必要ですが、既存の質問回答(QA)ベンチマークは、エンドツーエンドの音声評価をサポートできないため、さまざまな入力オーディオ条件を説明できないため、SLMSの知識理解を評価するのに不足しています。
これらの制限に対処するために、純粋な音声相互作用を通じてSLMの知識の理解を評価する新しいSpeechQAベンチマークであるVoxevalを提示します。
私たちのベンチマーク1)入力と出力の両方の音声形式を一意に維持し、2)多様な入力オーディオ条件全体のモデルの堅牢性を評価し、3)開拓者の数学的推論などの複雑なタスクの評価を開拓者に評価します。
体系的な評価は、Voxevalが現在のSLMに大きな課題をもたらし、さまざまなオーディオ条件に対する感受性を明らかにし、将来の開発における推論能力を高める必要性を強調することを示しています。
このベンチマークが、より洗練された信頼性の高いSLMの進歩を導くことができることを願っています。
Voxeval Datasetは、https://github.com/dreamtheater123/voxevalで入手できます

要約(オリジナル)

With the rising need for speech-based interaction models, end-to-end Spoken Language Models (SLMs) have emerged as a promising solution. While these models require comprehensive world knowledge for meaningful and reliable human interactions, existing question-answering (QA) benchmarks fall short in evaluating SLMs’ knowledge understanding due to their inability to support end-to-end speech evaluation and account for varied input audio conditions. To address these limitations, we present VoxEval, a novel SpeechQA benchmark that assesses SLMs’ knowledge understanding through pure speech interactions. Our benchmark 1) uniquely maintains speech format for both inputs and outputs, 2) evaluates model robustness across diverse input audio conditions, and 3) pioneers the assessment of complex tasks like mathematical reasoning in spoken format. Systematic evaluation demonstrates that VoxEval presents significant challenges to current SLMs, revealing their sensitivity to varying audio conditions and highlighting the need to enhance reasoning capabilities in future development. We hope this benchmark could guide the advancement of more sophisticated and reliable SLMs. VoxEval dataset is available at: https://github.com/dreamtheater123/VoxEval

arxiv情報

著者 Wenqian Cui,Xiaoqi Jiao,Ziqiao Meng,Irwin King
発行日 2025-05-27 16:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models はコメントを受け付けていません

AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs

要約

マルチモーダル大手言語モデル(MLLMS)の評価は、ベンチマークのサイズとクロスモダリティの複雑さの増加が重要なスコアリング努力を必要とするため、ますます高価になります。
この困難に取り組むために、このエスカレートコストに取り組むMLLMの効率的かつ適応的なベンチマークのためのエージェント主導のフレームワークであるAutojudgerを紹介します。
Autojudgerは、アイテム応答理論(IRT)を採用して、質問の難易度と自律評価エージェントを推定して、モデルのリアルタイムパフォーマンスに基づいて最も有益なテスト質問を動的に選択します。
具体的には、Autojudgerには2つの重要なコンポーネントが組み込まれています。選択された質問がビジョンと言語のモダリティの両方で多様で挑戦的なシナリオをカバーするためのセマンティックアウェア検索メカニズムと、評価プロセス全体でコヒーレントおよびグローバルに通知された質問の選択を導くために以前に評価された質問の文脈的統計を維持する動的なメモリ。
4つの代表的なマルチモーダルベンチマークでの広範な実験は、適応フレームワークが評価費用を劇的に削減することを示しています。つまり、Autojudgerはデータの4%のみを使用して、MMTベンチの完全なベンチマーク評価で90%以上のランキング精度を達成しています。

要約(オリジナル)

Evaluating multimodal large language models (MLLMs) is increasingly expensive, as the growing size and cross-modality complexity of benchmarks demand significant scoring efforts. To tackle with this difficulty, we introduce AutoJudger, an agent-driven framework for efficient and adaptive benchmarking of MLLMs that tackles this escalating cost. AutoJudger employs the Item Response Theory (IRT) to estimate the question difficulty and an autonomous evaluation agent to dynamically select the most informative test questions based on the model’s real-time performance. Specifically, AutoJudger incorporates two pivotal components: a semantic-aware retrieval mechanism to ensure that selected questions cover diverse and challenging scenarios across both vision and language modalities, and a dynamic memory that maintains contextual statistics of previously evaluated questions to guide coherent and globally informed question selection throughout the evaluation process. Extensive experiments on four representative multimodal benchmarks demonstrate that our adaptive framework dramatically reduces evaluation expenses, i.e. AutoJudger uses only 4% of the data to achieve over 90% ranking accuracy with the full benchmark evaluation on MMT-Bench.

arxiv情報

著者 Xuanwen Ding,Chengjun Pan,Zejun Li,Jiwen Zhang,Siyuan Wang,Zhongyu Wei
発行日 2025-05-27 16:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs はコメントを受け付けていません

Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

要約

テキストレスの音声言語モデル(SLM)は、エンドツーエンドの音声からスピーチモデリングの可能性を示していますが、セマンティックな一貫性と関連性の観点から、テキストベースの大手言語モデル(LLM)に遅れをとっています。
この作業では、SLMSの意味的理解を高めるために、AIフィードバック(RLAIF)による補強学習に触発された好みの最適化を活用するAlign-SLMフレームワークを紹介します。
私たちのアプローチは、特定のプロンプトから複数の音声継続を生成し、セマンティックメトリックを使用して、直接設定最適化(DPO)の優先データを作成します。
語彙および構文モデリングのZerospeech 2021ベンチマーク、セマンティックコヒーレンスのためのStoryClozeデータセットの音声バージョン、およびGPT4-Oスコアや人間の評価を含むその他の音声生成メトリックを使用して、フレームワークを評価します。
実験結果は、私たちの方法がほとんどのベンチマークでSLMSの最先端のパフォーマンスを達成し、SLMSのセマンティクスを改善するための優先最適化の重要性を強調していることを示しています。

要約(オリジナル)

While textless Spoken Language Models (SLMs) have shown potential in end-to-end speech-to-speech modeling, they still lag behind text-based Large Language Models (LLMs) in terms of semantic coherence and relevance. This work introduces the Align-SLM framework, which leverages preference optimization inspired by Reinforcement Learning with AI Feedback (RLAIF) to enhance the semantic understanding of SLMs. Our approach generates multiple speech continuations from a given prompt and uses semantic metrics to create preference data for Direct Preference Optimization (DPO). We evaluate the framework using ZeroSpeech 2021 benchmarks for lexical and syntactic modeling, the spoken version of the StoryCloze dataset for semantic coherence, and other speech generation metrics, including the GPT4-o score and human evaluation. Experimental results show that our method achieves state-of-the-art performance for SLMs on most benchmarks, highlighting the importance of preference optimization to improve the semantics of SLMs.

arxiv情報

著者 Guan-Ting Lin,Prashanth Gurunath Shivakumar,Aditya Gourav,Yile Gu,Ankur Gandhe,Hung-yi Lee,Ivan Bulyko
発行日 2025-05-27 16:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback はコメントを受け付けていません

DecisionFlow: Advancing Large Language Model as Principled Decision Maker

要約

ヘルスケアやファイナンスなどのハイステークスドメインでは、効果的な意思決定には正確な結果だけでなく、透明で説明可能な推論が必要です。
ただし、現在の言語モデルには、そのようなタスクに必要な構造化された審議が欠けていることが多く、代わりに、切断された事後の方法で決定と正当化を生成します。
これに対処するために、decisionflowを提案します。これは、アクション、属性、制約の構造化された表現を推論するためにモデルを導く新しい決定モデリングフレームワークです。
プロンプトからの回答を直接予測するのではなく、DecisionFlowは意味的に接地された決定空間を構築し、潜在的なユーティリティ機能を透明性のあるユーティリティ駆動型の方法で評価します。
このプロセスは、モデルの推論を反映した解釈可能な理論的根拠と密接に決定を生み出します。
2つのハイステークスベンチマークでの経験的結果は、DecisionFlowが強力なプロンプトベースラインよりも最大30%の精度を達成するだけでなく、結果のアライメントを強化することを示しています。
私たちの仕事は、象徴的な推論をLLMと統合するための重要なステップであり、より説明責任のある、説明可能で信頼性の高いLLM意思決定支援システムを可能にします。
https://github.com/xiusic/decisionflowでデータとコードをリリースします。

要約(オリジナル)

In high-stakes domains such as healthcare and finance, effective decision-making demands not just accurate outcomes but transparent and explainable reasoning. However, current language models often lack the structured deliberation needed for such tasks, instead generating decisions and justifications in a disconnected, post-hoc manner. To address this, we propose DecisionFlow, a novel decision modeling framework that guides models to reason over structured representations of actions, attributes, and constraints. Rather than predicting answers directly from prompts, DecisionFlow builds a semantically grounded decision space and infers a latent utility function to evaluate trade-offs in a transparent, utility-driven manner. This process produces decisions tightly coupled with interpretable rationales reflecting the model’s reasoning. Empirical results on two high-stakes benchmarks show that DecisionFlow not only achieves up to 30% accuracy gains over strong prompting baselines but also enhances alignment in outcomes. Our work is a critical step toward integrating symbolic reasoning with LLMs, enabling more accountable, explainable, and reliable LLM decision support systems. We release the data and code at https://github.com/xiusic/DecisionFlow.

arxiv情報

著者 Xiusi Chen,Shanyong Wang,Cheng Qian,Hongru Wang,Peixuan Han,Heng Ji
発行日 2025-05-27 16:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DecisionFlow: Advancing Large Language Model as Principled Decision Maker はコメントを受け付けていません

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

要約

大規模な言語モデルにおける専門家(MOE)の混合物の外科は、はるかに大きなモデルパラメーターカウントと学習能力に対して実行コストのわずかな価格を約束します。
ただし、一部の専門家は他の専門家よりもはるかに頻繁に活性化されていることが一般的に観察されており、異なるデバイスで専門家を並行して実行する際にシステムの非効率性につながることが観察されています。
したがって、グループ化された専門家(MOGE)の混合物を紹介します。これは、選択中に専門家をグループ化し、自然のMOEよりも専門家のワークロードのバランスをとります。
トークンを制約して、事前定義された各専門家グループ内の同数の専門家をアクティブにします。
モデルの実行が複数のデバイスで配布されると、このアーキテクチャ設計により、デバイス全体でバランスの取れた計算負荷が保証され、特に推論フェーズのスループットが大幅に向上します。
さらに、Ascend NPUにPangue Pro Moeを構築します。これは、720億パラメーターのMogeに基づくまばらなモデルであり、そのうち160億がトークンごとに活性化されます。
Pangue Pro Moeの構成は、広範なシステムシミュレーション研究を通じてAscend 300i Duoと800i A2に最適化されています。
私たちの実験は、MOGEが実際に、モデルトレーニングとAscend NPUの推論の両方で、専門家の負荷分散とより効率的な実行につながることを示しています。
Pangue Pro Moeの推論パフォーマンスは、カードごとに1148トークン/sを達成し、投機的加速によりカードあたり1528トークン/sにさらに改善でき、同等の32Bおよび72Bの密度モデルを上回ります。
さらに、Ascend 300i Duoのモデル推論のための優れたコストとパフォーマンス比を達成します。ASCEDNNPUは、Sub-100Bの合計パラメータークラス内で大規模な並列化でPangue Pro Moeをトレーニングできることを示しています。

要約(オリジナル)

The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo.Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.

arxiv情報

著者 Yehui Tang,Xiaosong Li,Fangcheng Liu,Wei Guo,Hang Zhou,Yaoyuan Wang,Kai Han,Xianzhi Yu,Jinpeng Li,Hui Zang,Fei Mi,Xiaojun Meng,Zhicheng Liu,Hanting Chen,Binfan Zheng,Can Chen,Youliang Yan,Ruiming Tang,Peifeng Qin,Xinghao Chen,Dacheng Tao,Yunhe Wang
発行日 2025-05-27 16:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity はコメントを受け付けていません

Efficiently Scaling LLM Reasoning with Certaindex

要約

考え方、自己整合性、MCTなどのテスト時間推論アルゴリズムはLLMの問題解決を強化しますが、精度を改善することなく多くのトークンを無駄に生成する可能性があります。
同時に、これらのアルゴリズムは回答の安定化を示すことを観察します。中間ソリューションは、特定のポイントの後に変化を止め、コンピューティングのさらなる投資は最終的な答えを変えません。
この現象を定量化するために、この進化する安定性を測定するアルゴリズムと抗議のメトリックである特定のDexを導入し、最終結果を変更する可能性が低い場合にシグナルを導入します。
特定のDEXは軽量で、早期出口を介して推論プログラムの推論を加速でき、さらに動的トークンの割り当て、ギャングのスケジューリング、および実際のLLMサービングシステムと統合された多くの機会を可能にします。
現実世界の利点を定量化するために、Dynasorにスケジューラとして特定のDexを構築し、推論に対応するLLMサービングシステムを構築し、正確な低下で実際のワークロードで最大50%のコンピューティングと3.3倍のスループットを実証しました。
私たちのコードは、https://github.com/hao-ai-lab/dynasor.gitで入手できます

要約(オリジナル)

Test-time reasoning algorithms such as chain-of-thought, self-consistency, and MCTS enhance LLM problem-solving but can wastefully generate many tokens without improving accuracy. At the same time, we observe that these algorithms exhibit answer stabilization: their intermediate solutions often cease to change after a certain point, and further investment of compute does not change their final answer. To quantify this phenomenon, we introduce Certaindex, an algorithm-agnostic metric measuring this evolving stability, signaling when further computation is unlikely to alter the final result. Certaindex is lightweight, can accelerate reasoning program inference via early exit, and further enables dynamic token allocation, gang scheduling, and many opportunities when integrated with real-world LLM serving systems. To quantify real-world benefits, we built Certaindex as a scheduler into Dynasor, our reasoning-aware LLM serving system, and demonstrate up to 50% compute savings and 3.3x higher throughput in real workloads with no accuracy drop. Our code is available at https://github.com/hao-ai-lab/Dynasor.git

arxiv情報

著者 Yichao Fu,Junda Chen,Siqi Zhu,Zheyu Fu,Zhongdongming Dai,Yonghao Zhuang,Yian Ma,Aurick Qiao,Tajana Rosing,Ion Stoica,Hao Zhang
発行日 2025-05-27 16:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Efficiently Scaling LLM Reasoning with Certaindex はコメントを受け付けていません

A Lightweight Method to Disrupt Memorized Sequences in LLM

要約

言語モデルが拡大するにつれて、パフォーマンスは幅広いタスク全体で劇的に向上しますが、トレーニングデータの一部を逐語的に記憶および逆流させる傾向もあります。
このトレードオフは、特に現実世界の展開において、深刻な法的、倫理的、安全性の懸念をもたらします。
プライバシーの差やモデルの学習などの既存の緩和手法では、多くの場合、内部ウェイトを再訓練またはアクセスする必要があり、ほとんどのユーザーにとって非現実的です。
この作業では、ユーザーがトークンレベルの出力のみにアクセスできる現実的な設定向けに設計された軽量の事後防御であるTokenswapを紹介します。
私たちの重要な洞察は、タスクのパフォーマンスが高いためには大きなモデルが必要ですが、小さなモデル(例えば、蒸留-2)は、流fluentで文法的にもっともらしい確率を共通の関数単語に割り当てるのに十分であることが多いことです。
モデル間でトークンの確率を選択的に交換することにより、Tokenswapは大きなモデルの機能を保存しながら、逐語的な繁殖の傾向を減らします。
Pythia-6.9BおよびLlama-3-8Bの評価は、無視できるタスクの悪化を伴う正確な記憶の10 $ \ Times $のドロップまでに表示されます。
私たちの方法は、展開されたLLMSで記憶された世代を緩和するための実用的でアクセス可能なソリューションを提供します。

要約(オリジナル)

As language models scale, their performance improves dramatically across a wide range of tasks, but so does their tendency to memorize and regurgitate parts of their training data verbatim. This tradeoff poses serious legal, ethical, and safety concerns, especially in real-world deployments. Existing mitigation techniques, such as differential privacy or model unlearning, often require retraining or access to internal weights making them impractical for most users. In this work, we introduce TokenSwap, a lightweight, post-hoc defense designed for realistic settings where the user can only access token-level outputs. Our key insight is that while large models are necessary for high task performance, small models (e.g., DistilGPT-2) are often sufficient to assign fluent, grammatically plausible probabilities to common function words – and crucially, they memorize far less. By selectively swapping token probabilities between models, TokenSwap preserves the capabilities of large models while reducing their propensity for verbatim reproduction. Evaluations on Pythia-6.9B and Llama-3-8B show up to a 10$\times$ drop in exact memorization with negligible task degradation. Our method offers a practical, accessible solution for mitigating memorized generation in deployed LLMs.

arxiv情報

著者 Parjanya Prajakta Prashant,Kaustubh Ponkshe,Babak Salimi
発行日 2025-05-27 16:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Lightweight Method to Disrupt Memorized Sequences in LLM はコメントを受け付けていません

Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge

要約

大規模な言語モデル(LLM)は、広範な臨床データと医学文献を活用することにより、医療の質問を大幅に進めました。
しかし、医学知識の急速な進化と、ドメイン固有のリソースを手動で更新する労働集約的なプロセスは、これらのシステムの信頼性に課題をもたらします。
これに対処するために、医療知識グラフの構築と継続的な更新を自動化し、推論を統合し、PubMedやWikisearchなどの現在の外部証拠を取得する包括的なフレームワークであるAgentic Medical Graph-Rag(AMG-RAG)を紹介します。
新しい発見と複雑な医療概念を動的にリンクすることにより、AMG-ragは精度を向上させるだけでなく、医療質問の解釈可能性を向上させます。
MEDQAおよびMEDMCQAベンチマークの評価は、AMG-RAGの有効性を示しており、MEDQAで74.1%のF1スコアを達成し、MEDMCQAで66.34%の精度を達成し、同等のモデルと10〜100倍の両方を上回ります。
特に、これらの改善は、計算オーバーヘッドを増やすことなく達成され、自動化された知識グラフの生成の重要な役割と、最新の信頼できる医療洞察を提供する外部の証拠の取得を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have significantly advanced medical question-answering by leveraging extensive clinical data and medical literature. However, the rapid evolution of medical knowledge and the labor-intensive process of manually updating domain-specific resources pose challenges to the reliability of these systems. To address this, we introduce Agentic Medical Graph-RAG (AMG-RAG), a comprehensive framework that automates the construction and continuous updating of medical knowledge graphs, integrates reasoning, and retrieves current external evidence, such as PubMed and WikiSearch. By dynamically linking new findings and complex medical concepts, AMG-RAG not only improves accuracy but also enhances interpretability in medical queries. Evaluations on the MEDQA and MEDMCQA benchmarks demonstrate the effectiveness of AMG-RAG, achieving an F1 score of 74.1 percent on MEDQA and an accuracy of 66.34 percent on MEDMCQA, outperforming both comparable models and those 10 to 100 times larger. Notably, these improvements are achieved without increasing computational overhead, highlighting the critical role of automated knowledge graph generation and external evidence retrieval in delivering up-to-date, trustworthy medical insights.

arxiv情報

著者 Mohammad Reza Rezaei,Reza Saadati Fard,Rahul G. Krishnan,Milad Lankarany
発行日 2025-05-27 17:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge はコメントを受け付けていません