Enabling Inclusive Systematic Reviews: Incorporating Preprint Articles with Large Language Model-Driven Evaluations

要約

背景。
比較有効性の研究における体系的なレビューには、タイムリーな証拠統合が必要です。
プリプリントは知識の普及を加速しますが、品質は異なり、系統的レビューの課題をもたらします。
方法。
プリプリント出版物を予測するための高度なフレームワークであるAutoconfidence(自動信頼評価)を提案します。これは、手動キュレーションへの依存を減らし、3つの重要な進歩を含む予測因子の範囲を拡大します。
さらに、2つの予測モデルを採用しました。バイナリ結果のランダムフォレスト分類器と、時間の経過とともにバイナリ結果と出版物のリスクの両方を予測する生存硬化モデルです。
結果。
ランダムフォレスト分類器は、LLM駆動型スコアでAUROC 0.692を達成し、セマンティック埋め込みで0.733、記事使用量メトリックで0.747に改善しました。
Survival Cureモデルは、LLM駆動スコアでAuroc 0.716に達し、セマンティック埋め込みで0.731に改善しました。
出版リスク予測のために、0.658の一致インデックスを達成し、セマンティック埋め込みで0.667に増加しました。
結論。
私たちの研究は、自動化されたデータ抽出と複数の機能統合を通じて、プリプリント公開予測のフレームワークを進めています。
セマンティックな埋め込みとLLM駆動型評価を組み合わせることにより、オートコンフェンスは予測パフォーマンスを向上させ、手動注釈の負担を軽減します。
このフレームワークには、エビデンスに基づいた医療におけるプリプリント記事の体系的な組み込みを促進する可能性があり、より効果的な評価とプリプリントリソースの利用をサポートしています。

要約(オリジナル)

Background. Systematic reviews in comparative effectiveness research require timely evidence synthesis. Preprints accelerate knowledge dissemination but vary in quality, posing challenges for systematic reviews. Methods. We propose AutoConfidence (automated confidence assessment), an advanced framework for predicting preprint publication, which reduces reliance on manual curation and expands the range of predictors, including three key advancements: (1) automated data extraction using natural language processing techniques, (2) semantic embeddings of titles and abstracts, and (3) large language model (LLM)-driven evaluation scores. Additionally, we employed two prediction models: a random forest classifier for binary outcome and a survival cure model that predicts both binary outcome and publication risk over time. Results. The random forest classifier achieved AUROC 0.692 with LLM-driven scores, improving to 0.733 with semantic embeddings and 0.747 with article usage metrics. The survival cure model reached AUROC 0.716 with LLM-driven scores, improving to 0.731 with semantic embeddings. For publication risk prediction, it achieved a concordance index of 0.658, increasing to 0.667 with semantic embeddings. Conclusion. Our study advances the framework for preprint publication prediction through automated data extraction and multiple feature integration. By combining semantic embeddings with LLM-driven evaluations, AutoConfidence enhances predictive performance while reducing manual annotation burden. The framework has the potential to facilitate systematic incorporation of preprint articles in evidence-based medicine, supporting researchers in more effective evaluation and utilization of preprint resources.

arxiv情報

著者 Rui Yang,Jiayi Tong,Haoyuan Wang,Hui Huang,Ziyang Hu,Peiyu Li,Nan Liu,Christopher J. Lindsell,Michael J. Pencina,Yong Chen,Chuan Hong
発行日 2025-03-19 15:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enabling Inclusive Systematic Reviews: Incorporating Preprint Articles with Large Language Model-Driven Evaluations はコメントを受け付けていません

Inside-Out: Hidden Factual Knowledge in LLMs

要約

この作業は、大規模な言語モデル(LLM)が出力で表現するものよりも多くの事実に基づいた知識をパラメーターでエンコードするかどうかを評価するためのフレームワークを提示します。
いくつかの研究はこの可能性を示唆していますが、この現象を明確に定義または実証したものはありません。
最初に知識の正式な定義を提案し、正しい回答ペアの割合で正しいものがより高くランク付けされているため、特定の質問に対してそれを定量化します。
これにより、個々の回答候補者のスコアリングに使用される情報に応じて、外部および内部の知識が生じます。モデルの観察可能なトークンレベルの確率またはその中間計算のいずれかです。
内部知識が外部の知識を超えると、隠された知識が生じます。
次に、このフレームワークをクローズドブックQAセットアップで3つの人気のあるOpen-Weights LLMに適用して、ケーススタディを提示します。
私たちの結果は、次のことを示しています。(1)LLMSは、平均ギャップが40%で、外部から表現するものよりも多くの事実上の知識を内部的にエンコードしています。
(2)驚くべきことに、いくつかの知識は非常に深く隠されているため、モデルは1,000回の回答の大規模な繰り返しサンプリングにもかかわらず、モデルが完全に答えを完全に知ることができますが、一度も生成できません。
これにより、LLMSの生成能力の基本的な制限が明らかになります。これは、(3)クローズドブックQAでの繰り返し回答サンプリングを介してテスト時間計算のスケーリングに実際的な制約を課します。

要約(オリジナル)

This work presents a framework for assessing whether large language models (LLMs) encode more factual knowledge in their parameters than what they express in their outputs. While a few studies hint at this possibility, none has clearly defined or demonstrated this phenomenon. We first propose a formal definition of knowledge, quantifying it for a given question as the fraction of correct-incorrect answer pairs where the correct one is ranked higher. This gives rise to external and internal knowledge, depending on the information used to score individual answer candidates: either the model’s observable token-level probabilities or its intermediate computations. Hidden knowledge arises when internal knowledge exceeds external knowledge. We then present a case study, applying this framework to three popular open-weights LLMs in a closed-book QA setup. Our results indicate that: (1) LLMs consistently encode more factual knowledge internally than what they express externally, with an average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a model can internally know an answer perfectly, yet fail to generate it even once, despite large-scale repeated sampling of 1,000 answers. This reveals fundamental limitations in the generation capabilities of LLMs, which (3) puts a practical constraint on scaling test-time compute via repeated answer sampling in closed-book QA: significant performance improvements remain inaccessible because some answers are practically never sampled, yet if they were, we would be guaranteed to rank them first.

arxiv情報

著者 Zorik Gekhman,Eyal Ben David,Hadas Orgad,Eran Ofek,Yonatan Belinkov,Idan Szpector,Jonathan Herzig,Roi Reichart
発行日 2025-03-19 15:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Inside-Out: Hidden Factual Knowledge in LLMs はコメントを受け付けていません

Explicit Learning and the LLM in Machine Translation

要約

この研究では、明示的な学習のための大規模な言語モデル(LLMS)の能力を調査します。これは、言語タスクを実行するためのメタン言語的説明の同化を含むプロセスです。
制御されたテスト環境として暗号化手段によって生成された構築された言語を使用して、文法ルールを明示的に学習および適用するLLMの能力を評価するための実験を設計しました。
我々の結果は、LLMSが明示的な学習のための測定可能な能力を持っているが、この能力は、手元の言語現象の複雑さが増加するにつれて減少することを示しています。
思考の鎖で監視された微調整はLLMのパフォーマンスを大幅に向上させますが、類型的に斬新な、またはより複雑な言語的特徴に一般化するのに苦労しています。
これらの調査結果は、LLMによる明示的な学習をさらに改善するための、より多様なトレーニングセットと代替の微調整戦略の必要性を指摘しています。

要約(オリジナル)

This study explores the capacity of large language models (LLMs) for explicit learning, a process involving the assimilation of metalinguistic explanations to carry out language tasks. Using constructed languages generated by cryptographic means as controlled test environments, we designed experiments to assess an LLM’s ability to explicitly learn and apply grammar rules. Our results demonstrate that while LLMs possess a measurable capacity for explicit learning, this ability diminishes as the complexity of the linguistic phenomena at hand increases. Supervised fine-tuning on chains of thought significantly enhances LLM performance but struggles to generalize to typologically novel or more complex linguistic features. These findings point to the need for more diverse training sets and alternative fine-tuning strategies to further improve explicit learning by LLMs.

arxiv情報

著者 Malik Marmonier,Rachel Bawden,Benoît Sagot
発行日 2025-03-19 15:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explicit Learning and the LLM in Machine Translation はコメントを受け付けていません

PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing

要約

スケーリング法は、モデルパラメーターが増加する大規模な言語モデル(LLMS)で継続的に検証されていますが、LLMSの推論要求とEDGEデバイスの限られたリソースとの間の固有の張力は、エッジインテリジェンスの開発に重大な課題をもたらします。
最近、LLMの機能をより小さなフットプリントに蒸留することを目指して、多数の小さな言語モデルが登場しました。
ただし、これらのモデルは、多くの場合、より大きなカウンターパートの基本的な建築原理を保持しており、エッジデバイスのストレージおよび帯域幅の容量にかなりの負担をかけています。
この論文では、モデルアーキテクチャとエッジシステムの制約を共同で最適化する共同設計プロセスを通じて開発された周辺言語モデルであるPLMを紹介します。
PLMは、マルチヘッドの潜在的な注意メカニズムを利用し、Squared Relu Activation Functionを使用してスパースを促進し、それにより推論中にピークメモリフットプリントを減らします。
トレーニング中に、オープンソースデータセットを収集および再編成し、多相トレーニング戦略を実装し、ウォームアップ安定性decay-Constant(WSDC)学習率スケジューラを経験的に調査します。
さらに、牡羊座の選好学習アプローチを採用することにより、人間のフィードバック(RLHF)からの強化学習を組み込みます。
2相SFTプロセスに続いて、この方法は、一般的なタスクで2%、GSM8Kタスクで9%、コーディングタスクで11%のパフォーマンスの向上をもたらします。
その新しいアーキテクチャに加えて、評価結果は、PLMが、有効化されたパラメーターの数が最も少ない一方で、公的に利用可能なデータでトレーニングされた既存の小言語モデルよりも優れていることを示しています。
さらに、消費者グレードのGPU、携帯電話、Raspberry PISなど、さまざまなエッジデバイスに展開することで、PLMの周辺アプリケーションに対する適合性を検証します。
PLMシリーズモデルは、https://github.com/plm-team/plmで公開されています。

要約(オリジナル)

While scaling laws have been continuously validated in large language models (LLMs) with increasing model parameters, the inherent tension between the inference demands of LLMs and the limited resources of edge devices poses a critical challenge to the development of edge intelligence. Recently, numerous small language models have emerged, aiming to distill the capabilities of LLMs into smaller footprints. However, these models often retain the fundamental architectural principles of their larger counterparts, still imposing considerable strain on the storage and bandwidth capacities of edge devices. In this paper, we introduce the PLM, a Peripheral Language Model, developed through a co-design process that jointly optimizes model architecture and edge system constraints. The PLM utilizes a Multi-head Latent Attention mechanism and employs the squared ReLU activation function to encourage sparsity, thereby reducing peak memory footprint during inference. During training, we collect and reorganize open-source datasets, implement a multi-phase training strategy, and empirically investigate the Warmup-Stable-Decay-Constant (WSDC) learning rate scheduler. Additionally, we incorporate Reinforcement Learning from Human Feedback (RLHF) by adopting the ARIES preference learning approach. Following a two-phase SFT process, this method yields performance gains of 2% in general tasks, 9% in the GSM8K task, and 11% in coding tasks. In addition to its novel architecture, evaluation results demonstrate that PLM outperforms existing small language models trained on publicly available data while maintaining the lowest number of activated parameters. Furthermore, deployment across various edge devices, including consumer-grade GPUs, mobile phones, and Raspberry Pis, validates PLM’s suitability for peripheral applications. The PLM series models are publicly available at https://github.com/plm-team/PLM.

arxiv情報

著者 Cheng Deng,Luoyang Sun,Jiwen Jiang,Yongcheng Zeng,Xinjian Wu,Wenxin Zhao,Qingfa Xiao,Jiachuan Wang,Haoyang Li,Lei Chen,Lionel M. Ni,Haifeng Zhang,Jun Wang
発行日 2025-03-19 15:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing はコメントを受け付けていません

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

要約

大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオなどのマルチモーダル入力も処理する顕著な能力を示しています。
ただし、ほとんどの既存のモデルは、主にテキストの指示を使用して入力信号の分析に焦点を当てており、音声命令とオーディオが混合され、モデルへの入力として機能するシナリオを見落としています。
これらの課題に対処するために、音声ベースの質問を理解し、音響コンテキストを同時に聞くように設計された新しいフレームワークであるSollaを紹介します。
Sollaには、オーディオイベントを効果的に識別および表現するオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測方法が組み込まれています。
Sollaおよびその他の公開されているモデルを厳密に評価するために、Sa-Evalと呼ばれる新しいベンチマークデータセットを提案します。これには、オーディオイベント分類、オーディオキャプション、オーディオ質問回答の3つのタスクが含まれます。
SA-Valは、さまざまなスピーキングスタイルを備えた多様な音声指導を受けており、実際の音響条件の範囲を捉えるために、簡単かつ難しい2つの難易度を網羅しています。
実験結果は、Sollaが簡単なテストセットとハードテストセットの両方でベースラインモデルと同等またはアウトパフォームすることを示しており、共同で音声と音声を理解する上でその有効性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have recently shown remarkable ability to process not only text but also multimodal inputs such as speech and audio. However, most existing models primarily focus on analyzing input signals using text instructions, overlooking scenarios in which speech instructions and audio are mixed and serve as inputs to the model. To address these challenges, we introduce Solla, a novel framework designed to understand speech-based questions and hear the acoustic context concurrently. Solla incorporates an audio tagging module to effectively identify and represent audio events, as well as an ASR-assisted prediction method to improve comprehension of spoken content. To rigorously evaluate Solla and other publicly available models, we propose a new benchmark dataset called SA-Eval, which includes three tasks: audio event classification, audio captioning, and audio question answering. SA-Eval has diverse speech instruction with various speaking styles, encompassing two difficulty levels, easy and hard, to capture the range of real-world acoustic conditions. Experimental results show that Solla performs on par with or outperforms baseline models on both the easy and hard test sets, underscoring its effectiveness in jointly understanding speech and audio.

arxiv情報

著者 Junyi Ao,Dekun Chen,Xiaohai Tian,Wenjie Feng,Jun Zhang,Lu Lu,Yuxuan Wang,Haizhou Li,Zhizheng Wu
発行日 2025-03-19 15:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context はコメントを受け付けていません

SPILL: Domain-Adaptive Intent Clustering based on Selection and Pooling with Large Language Models

要約

このホワイトペーパーでは、微調整せずに意図的なクラスタリングのための直感的でドメイン適応的な方法である大規模な言語モデル(Spill)を使用した選択とプールを提案します。
既存の埋め込みベースのクラスタリング方法は、新しいデータセットごとに結果を最適化するために、いくつかのラベル付き例または監視なしの微調整に依存しているため、複数のデータセットに一般化できません。
私たちの目標は、これらの既存の埋め込み剤を、それ以上微調整することなく、新しいドメインデータセットに対してより一般化できるようにすることです。
サンプリングおよびプーリング技術の有効性に関する理論的派生結果とシミュレーション結果に触発されて、クラスタリングタスクを小規模な選択問題と見なしています。
この問題の良い解決策は、クラスタリングパフォーマンスの向上に関連しています。
したがって、2段階のアプローチを提案します。まず、各発言(種子と呼ばれる)ごとに、既存の埋め込みを使用してその埋め込みを導き出します。
次に、距離メトリックを適用して、種子に近い候補者のプールを選択します。
エンバダーは新しいデータセットに最適化されていないため、第2段階では、LLMを使用して、シードと同じ意図を共有するこれらの候補者からの発話をさらに選択します。
最後に、これらの選択された候補者を種でプールして、種の洗練された埋め込みを導き出します。
私たちの方法は一般に、埋め込み剤を使用して直接パフォーマンスを発揮し、他の最先端の研究に匹敵する結果を達成することがわかりました。これは、はるかに大きなモデルを使用し、微調整を必要とし、その強度と効率を示しています。
我々の結果は、我々の方法により、既存の埋め込み機を追加の微調整なしでさらに改善し、新しいドメインデータセットにより適応性を高めることができることを示しています。
さらに、クラスタリングタスクを小規模な選択問題として表示すると、LLMを使用してユーザーの目標に応じてクラスタリングタスクをカスタマイズする可能性があります。

要約(オリジナル)

In this paper, we propose Selection and Pooling with Large Language Models (SPILL), an intuitive and domain-adaptive method for intent clustering without fine-tuning. Existing embeddings-based clustering methods rely on a few labeled examples or unsupervised fine-tuning to optimize results for each new dataset, which makes them less generalizable to multiple datasets. Our goal is to make these existing embedders more generalizable to new domain datasets without further fine-tuning. Inspired by our theoretical derivation and simulation results on the effectiveness of sampling and pooling techniques, we view the clustering task as a small-scale selection problem. A good solution to this problem is associated with better clustering performance. Accordingly, we propose a two-stage approach: First, for each utterance (referred to as the seed), we derive its embedding using an existing embedder. Then, we apply a distance metric to select a pool of candidates close to the seed. Because the embedder is not optimized for new datasets, in the second stage, we use an LLM to further select utterances from these candidates that share the same intent as the seed. Finally, we pool these selected candidates with the seed to derive a refined embedding for the seed. We found that our method generally outperforms directly using an embedder, and it achieves comparable results to other state-of-the-art studies, even those that use much larger models and require fine-tuning, showing its strength and efficiency. Our results indicate that our method enables existing embedders to be further improved without additional fine-tuning, making them more adaptable to new domain datasets. Additionally, viewing the clustering task as a small-scale selection problem gives the potential of using LLMs to customize clustering tasks according to the user’s goals.

arxiv情報

著者 I-Fan Lin,Faegheh Hasibi,Suzan Verberne
発行日 2025-03-19 15:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SPILL: Domain-Adaptive Intent Clustering based on Selection and Pooling with Large Language Models はコメントを受け付けていません

LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクで顕著なパフォーマンスを示していますが、複雑な問題解決には言語の理解と数学的推論スキルの両方が必要な数学的推論では課題に直面しています。
この課題に対処するための既存のアプローチは、多くの場合、アンサンブル方法に依存し、ターゲットドメインのデータ不足の問題に苦しんでいます。
この作業では、数学的推論タスクでLLMSの機能を強化する新しい方法を提示します。
このギャップを埋める必要性に動機付けられたこのアプローチには、質問の言い換え戦略が組み込まれています。これは、一般化を改善するために数学的な質問の言語形態を多様化することを目的としています。
さらに、モデルの学習プロセスを導くために専門的なトレーニング目標が採用され、数学的概念と推論プロセスの理解を深めることに焦点を当てています。
異なるLLMを使用して4つのデータセットで実験を実施し、数学的推論タスクでLLMSのパフォーマンスを改善する際のアプローチの有効性を実証します。
私たちの調査結果は、大規模な言語モデルの進歩における方法論の重要性と、数学的推論能力を必要とする現実世界のアプリケーションに対する潜在的な意味を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performance in various natural language processing tasks but face challenges in mathematical reasoning, where complex problem-solving requires both linguistic understanding and mathematical reasoning skills. Existing approaches to address this challenge often rely on ensemble methods and suffer from the problem of data scarcity in target domains. In this work, we present a novel method to enhance LLMs’ capabilities in mathematical reasoning tasks. Motivated by the need to bridge this gap, our approach incorporates a question paraphrase strategy, which aims at diversifying the linguistic forms of mathematical questions to improve generalization. Additionally, specialized training objectives are employed to guide the model’s learning process, focusing on enhancing its understanding of mathematical concepts and reasoning processes. We conduct experiments on four datasets using different LLMs, and demonstrate the effectiveness of our approach in improving LLMs’ performance on mathematical reasoning tasks. Our findings underscore the significance of our methodology in the advancement of large language models and its potential implications for real-world applications that require mathematical reasoning abilities.

arxiv情報

著者 Shuguang Chen,Guang Lin
発行日 2025-03-19 15:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning はコメントを受け付けていません

SkyLadder: Better and Faster Pretraining via Context Window Scheduling

要約

LLM Pretrainingの最近の進歩により、より長いシーケンスを処理するために、増え続けるコンテキストウィンドウが特徴です。
しかし、私たちのパイロット研究は、より短いコンテキストウィンドウで前処理されたモデルが、固定トークン予算の下で一貫して長いコンテキストのカウンターパートを上回ることを明らかにしています。
この発見は、長いコンテキストの能力のバランスをより良くするために、最適なコンテキストウィンドウスケジューリング戦略を探求する動機付けです。
この目的のために、Skyladderを提案します。Skyladderは、コンテキストウィンドウの遷移を短く実装するシンプルで効果的なアプローチです。
SkylAdderは、長いコンテキストタスクでベースラインの結果を一致させるか、それを超えながら、強力な標準ベンチマークパフォーマンスを保持します。
広範な実験を通じて、100Bトークンの1Bパラメーターモデル(最大32Kコンテキスト)と3Bパラメーターモデル(8Kコンテキスト)を事前訓練し、スカイラダーが一般的なベンチマークで最大3.7%の一貫したゲインを生成し、ベースラインと比較して最大22%のトレーニング速度を達成することを実証します。
コードはhttps://github.com/sail-sg/skyladderにあります。

要約(オリジナル)

Recent advancements in LLM pretraining have featured ever-expanding context windows to process longer sequences. However, our pilot study reveals that models pretrained with shorter context windows consistently outperform their long-context counterparts under a fixed token budget. This finding motivates us to explore an optimal context window scheduling strategy to better balance long-context capability with pretraining efficiency. To this end, we propose SkyLadder, a simple yet effective approach that implements a short-to-long context window transition. SkyLadder preserves strong standard benchmark performance, while matching or exceeding baseline results on long context tasks. Through extensive experiments, we pre-train 1B-parameter models (up to 32K context) and 3B-parameter models (8K context) on 100B tokens, demonstrating that SkyLadder yields consistent gains of up to 3.7% on common benchmarks, while achieving up to 22% faster training speeds compared to baselines. The code is at https://github.com/sail-sg/SkyLadder.

arxiv情報

著者 Tongyao Zhu,Qian Liu,Haonan Wang,Shiqi Chen,Xiangming Gu,Tianyu Pang,Min-Yen Kan
発行日 2025-03-19 17:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SkyLadder: Better and Faster Pretraining via Context Window Scheduling はコメントを受け付けていません

Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems

要約

検索された生成(RAG)モデルを搭載した医療QAシステムは、臨床的意思決定をサポートしますが、健康の人種、性別、社会的決定要因に関連するバイアスを導入する可能性があります。
人口統計に敏感なクエリを調べ、検索の矛盾を測定することにより、RAGベースのLLMのバイアスを体系的に評価します。
MMLUやMEDMCQAなどのデータセットを使用して、検索の重複と正確性の格差を分析します。
私たちの調査結果は、RAGパイプライン内のかなりの人口統計学的格差を明らかにし、公平性を確保するための公平性を明示的に説明する検索方法の重要な必要性を強調しています。

要約(オリジナル)

Medical QA systems powered by Retrieval-Augmented Generation (RAG) models support clinical decision-making but may introduce biases related to race, gender, and social determinants of health. We systematically evaluate biases in RAG-based LLM by examining demographic-sensitive queries and measuring retrieval discrepancies. Using datasets like MMLU and MedMCQA, we analyze retrieval overlap and correctness disparities. Our findings reveal substantial demographic disparities within RAG pipelines, emphasizing the critical need for retrieval methods that explicitly account for fairness to ensure equitable clinical decision-making.

arxiv情報

著者 Yuelyu Ji,Hang Zhang,Yanshan Wang
発行日 2025-03-19 17:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating Bias in Retrieval-Augmented Medical Question-Answering Systems はコメントを受け付けていません

Exploring Large Language Models for Word Games:Who is the Spy?

要約

ワードゲームは、ルールベースの状況的性質のために、自然言語処理(NLP)、ゲーム理論、および関連分野の重要な研究価値を保持しています。
この研究では、単語ゲームに大規模な言語モデル(LLM)がどのように効果的に関与できるかを調査し、トレーニングのないフレームワークを提案しています。
「Shei shi wo di」または「誰がスパイであるか」は、古典的な単語ゲームです。
このゲームを例として使用して、LLMが役割単語の推測やアイデンティティの偽装などのタスクで優れたパフォーマンスを実現できるようにするために、チェーンオブ考え(COT)ベースのスケジューリングフレームワークを紹介します。
ゲームの成功率とLLMエージェントの分析結果の精度に基づいて、フレームワークのパフォーマンスを評価します。
実験結果は、フレームワークの有効性を確認し、複数のデータセットでLLMパフォーマンスの顕著な改善を示しています。
この作業は、構造化されたゲーム環境内での状況推論と社会的相互作用をマスターする際のLLMの可能性を強調しています。
私たちのコードは、https://github.com/ct-wei/who-is-the-spyで公開されています。

要約(オリジナル)

Word games hold significant research value for natural language processing (NLP), game theory, and related fields due to their rule-based and situational nature. This study explores how large language models (LLMs) can be effectively involved in word games and proposes a training-free framework. ‘Shei Shi Wo Di’ or ‘Who is the Spy’ in English, is a classic word game. Using this game as an example, we introduce a Chain-of-Thought (CoT)-based scheduling framework to enable LLMs to achieve excellent performance in tasks such as inferring role words and disguising their identities. We evaluate the framework’s performance based on game success rates and the accuracy of the LLM agents’ analytical results. Experimental results affirm the framework’s effectiveness, demonstrating notable improvements in LLM performance across multiple datasets. This work highlights the potential of LLMs in mastering situational reasoning and social interactions within structured game environments. Our code is publicly available at https://github.com/ct-wei/Who-is-The-Spy.

arxiv情報

著者 Chentian Wei,Jiewei Chen,Jinzhu Xu
発行日 2025-03-19 14:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Exploring Large Language Models for Word Games:Who is the Spy? はコメントを受け付けていません