Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness

要約

サブグループ間の分解された評価は、機械学習モデルの公平性を評価するために重要ですが、その批判的な使用は実務家を誤解させる可能性があります。
サブグループ間の平等なパフォーマンスは、データが関連する集団を代表しているが、実際の格差を反映している場合、公平性の信頼できない尺度であることを示します。
さらに、選択バイアスのためにデータが代表的でない場合、バイアスメカニズムに関する明示的な仮定なしでは、条件付き独立性テストに基づく代替アプローチの両方が無効になる可能性があります。
因果グラフィカルモデルを使用して、異なるデータ生成プロセスの下でサブグループ全体のメトリック安定性を予測します。
私たちのフレームワークは、条件付き独立性テストや加重パフォーマンスの推定を含む、交絡および分布シフトを制御するための明示的な因果的仮定と分析を伴う分解評価を補完することを示唆しています。
これらの調査結果は、分解された評価の遍在性を考慮して、実践者がモデル評価をどのように設計および解釈するかに幅広い意味を持っています。

要約(オリジナル)

Disaggregated evaluation across subgroups is critical for assessing the fairness of machine learning models, but its uncritical use can mislead practitioners. We show that equal performance across subgroups is an unreliable measure of fairness when data are representative of the relevant populations but reflective of real-world disparities. Furthermore, when data are not representative due to selection bias, both disaggregated evaluation and alternative approaches based on conditional independence testing may be invalid without explicit assumptions regarding the bias mechanism. We use causal graphical models to predict metric stability across subgroups under different data generating processes. Our framework suggests complementing disaggregated evaluations with explicit causal assumptions and analysis to control for confounding and distribution shift, including conditional independence testing and weighted performance estimation. These findings have broad implications for how practitioners design and interpret model assessments given the ubiquity of disaggregated evaluation.

arxiv情報

著者 Stephen R. Pfohl,Natalie Harris,Chirag Nagpal,David Madras,Vishwali Mhasawade,Olawale Salaudeen,Awa Dieng,Shannon Sequeira,Santiago Arciniegas,Lillian Sung,Nnamdi Ezeanochie,Heather Cole-Lewis,Katherine Heller,Sanmi Koyejo,Alexander D’Amour
発行日 2025-06-04 17:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, stat.ML | Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness はコメントを受け付けていません

What Makes Treatment Effects Identifiable? Characterizations and Estimators Beyond Unconfoundedness

要約

因果推論における平均治療効果(ATE)の広く使用されている推定器のほとんどは、非影響力と重複の仮定に依存しています。
顕著な性能では、観測された共変量が結果と治療との間のすべての相関を説明する必要があります。
オーバーラップには、すべての個人の治療決定におけるランダム性の存在が必要です。
それにもかかわらず、多くの種類の研究は、頻繁に影響を及ぼしたり、重複していないことに違反しています。たとえば、決定論的な治療の決定を伴う観察研究(一般に回帰不連続設計として知られている)が重複しています。
このホワイトペーパーでは、平均的な治療効果の識別を可能にする一般的な条件の研究を開始し、影響を及ぼし、重複を超えて拡大します。
特に、統計学習理論のパラダイムに従って、ATEの識別に十分で必要な解釈可能な条件を提供します。
さらに、この状態は、治療を受けた(ATT)に対する平均治療効果の識別を特徴づけ、他の治療効果を特徴付けるためにも使用できます。
私たちの状態の有用性を説明するために、私たちの状態が満たされているいくつかのよく研究されたシナリオを提示します。したがって、以前の作品が捕らえられないというレジームでATが特定できることを証明します。
たとえば、データ分布に関する穏やかな仮定の下で、これはTan(2006)とRosenbaum(2002)によって提案されたモデル、およびThistlethwaite and Campbell(1960)によって導入された回帰の不連続設計モデルに当てはまります。
これらの各シナリオについて、自然な追加の仮定の下で、ATEは有限サンプルから推定できることも示しています。
これらの発見は、特に複雑な治療メカニズムを備えた観察研究において、学習理論的洞察と因果推論の方法論を橋渡しするための新しい道を開くと信じています。

要約(オリジナル)

Most of the widely used estimators of the average treatment effect (ATE) in causal inference rely on the assumptions of unconfoundedness and overlap. Unconfoundedness requires that the observed covariates account for all correlations between the outcome and treatment. Overlap requires the existence of randomness in treatment decisions for all individuals. Nevertheless, many types of studies frequently violate unconfoundedness or overlap, for instance, observational studies with deterministic treatment decisions — popularly known as Regression Discontinuity designs — violate overlap. In this paper, we initiate the study of general conditions that enable the identification of the average treatment effect, extending beyond unconfoundedness and overlap. In particular, following the paradigm of statistical learning theory, we provide an interpretable condition that is sufficient and nearly necessary for the identification of ATE. Moreover, this condition characterizes the identification of the average treatment effect on the treated (ATT) and can be used to characterize other treatment effects as well. To illustrate the utility of our condition, we present several well-studied scenarios where our condition is satisfied and, hence, we prove that ATE can be identified in regimes that prior works could not capture. For example, under mild assumptions on the data distributions, this holds for the models proposed by Tan (2006) and Rosenbaum (2002), and the Regression Discontinuity design model introduced by Thistlethwaite and Campbell (1960). For each of these scenarios, we also show that, under natural additional assumptions, ATE can be estimated from finite samples. We believe these findings open new avenues for bridging learning-theoretic insights and causal inference methodologies, particularly in observational studies with complex treatment mechanisms.

arxiv情報

著者 Yang Cai,Alkis Kalavasis,Katerina Mamali,Anay Mehrotra,Manolis Zampetakis
発行日 2025-06-04 17:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, math.ST, stat.ME, stat.ML, stat.TH | What Makes Treatment Effects Identifiable? Characterizations and Estimators Beyond Unconfoundedness はコメントを受け付けていません

A Kernel-Based Approach for Accurate Steady-State Detection in Performance Time Series

要約

このペーパーでは、パフォーマンスメトリック時系列のウォームアップフェーズから定常状態への移行を正確に検出するという課題に対処します。これは、効果的なベンチマークの重要なステップです。
目標は、未熟または遅延検出を回避する方法を導入することです。これにより、不正確または非効率的なパフォーマンス分析につながる可能性があります。
提案されたアプローチは、化学反応器ドメインからの手法を適応させ、カーネルベースのステップ検出と統計的方法の組み合わせを通じて、オンラインで定常状態を検出します。
ウィンドウベースのアプローチを使用することにより、詳細な情報を提供し、騒々しい時系列または不規則な時系列であっても、位相遷移を識別する精度を向上させます。
結果は、新しいアプローチが最先端の方法と比較して合計誤差を14.5%減らすことを示しています。
定常状態の開始のより信頼性の高い検出を提供し、ベンチマークのタスクのためのより大きな精度を提供します。
ユーザーの場合、新しいアプローチは、パフォーマンスベンチマークの精度と安定性を高め、多様な時系列データを効率的に処理します。
その堅牢性と適応性は、実際のパフォーマンス評価のための貴重なツールになり、一貫した再現性のある結果を確保します。

要約(オリジナル)

This paper addresses the challenge of accurately detecting the transition from the warmup phase to the steady state in performance metric time series, which is a critical step for effective benchmarking. The goal is to introduce a method that avoids premature or delayed detection, which can lead to inaccurate or inefficient performance analysis. The proposed approach adapts techniques from the chemical reactors domain, detecting steady states online through the combination of kernel-based step detection and statistical methods. By using a window-based approach, it provides detailed information and improves the accuracy of identifying phase transitions, even in noisy or irregular time series. Results show that the new approach reduces total error by 14.5% compared to the state-of-the-art method. It offers more reliable detection of the steady-state onset, delivering greater precision for benchmarking tasks. For users, the new approach enhances the accuracy and stability of performance benchmarking, efficiently handling diverse time series data. Its robustness and adaptability make it a valuable tool for real-world performance evaluation, ensuring consistent and reproducible results.

arxiv情報

著者 Martin Beseda,Vittorio Cortellessa,Daniele Di Pompeo,Luca Traini,Michele Tucci
発行日 2025-06-04 17:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PF | A Kernel-Based Approach for Accurate Steady-State Detection in Performance Time Series はコメントを受け付けていません

EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation

要約

大規模な言語モデル(LLM)は、考え方(COT)の監督で訓練されたときに、顕著な推論能力を示しています。
ただし、特にDeepSeek-R1などの大きな推論モデル(LRM)から蒸留された長いコットトレースは、蒸留プロセス中にトレーニングコストを大幅に増加させます。非合理的な基本モデルがLRMの推論行動を再現するように教えられています。
この作業では、コットトレースで中間推論ステップ(つまり、思考)を剪定することを目的としたリソース効率の高い推論トレーニングのためのCOT凝縮の問題を研究し、長さ還元されたCOTデータに関する監視されたモデルトレーニングを可能にしながら、回答の精度とコヒーレント推論を生成するモデルの能力の両方を維持します。
私たちの理論的根拠は、COTトレースが通常、問題の理解、探査、ソリューションの収束という3段階の構造に従うことです。
経験的分析を通じて、推論の痕跡、特に問題理解の初期段階(反射キューが豊富)とソリューション収束の最終段階を保持することは、ロスレスの推論監督を達成するのに十分であることがわかります。
この目的のために、中央部を破棄しながら各COTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジを摂取する凝縮法であるEpicを提案します。
このデザインは、論理的連続性を維持するために、推論軌道の「エッジ」を保存し、最初の問題フレーミングと最終的な回答合成の両方をキャプチャする類似性を引き出します。
複数のモデルファミリ(QWENおよびLLAMA)とベンチマークの実験は、EPICがトレーニング時間を34%以上削減しながら、完全なCOT監督に匹敵するMath500の損失のない推論の精度を達成することを示しています。
私たちの知る限り、これは効率的な推論モデルの蒸留のための思考レベルのCOT凝縮を探求する最初の研究です。

要約(オリジナル)

Large language models (LLMs) have shown remarkable reasoning capabilities when trained with chain-of-thought (CoT) supervision. However, the long and verbose CoT traces, especially those distilled from large reasoning models (LRMs) such as DeepSeek-R1, significantly increase training costs during the distillation process, where a non-reasoning base model is taught to replicate the reasoning behavior of an LRM. In this work, we study the problem of CoT condensation for resource-efficient reasoning training, aimed at pruning intermediate reasoning steps (i.e., thoughts) in CoT traces, enabling supervised model training on length-reduced CoT data while preserving both answer accuracy and the model’s ability to generate coherent reasoning. Our rationale is that CoT traces typically follow a three-stage structure: problem understanding, exploration, and solution convergence. Through empirical analysis, we find that retaining the structure of the reasoning trace, especially the early stage of problem understanding (rich in reflective cues) and the final stage of solution convergence, is sufficient to achieve lossless reasoning supervision. To this end, we propose an Edge-Preserving Condensation method, EPiC, which selectively retains only the initial and final segments of each CoT trace while discarding the middle portion. This design draws an analogy to preserving the ‘edge’ of a reasoning trajectory, capturing both the initial problem framing and the final answer synthesis, to maintain logical continuity. Experiments across multiple model families (Qwen and LLaMA) and benchmarks show that EPiC reduces training time by over 34% while achieving lossless reasoning accuracy on MATH500, comparable to full CoT supervision. To the best of our knowledge, this is the first study to explore thought-level CoT condensation for efficient reasoning model distillation.

arxiv情報

著者 Jinghan Jia,Hadi Reisizadeh,Chongyu Fan,Nathalie Baracaldo,Mingyi Hong,Sijia Liu
発行日 2025-06-04 17:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation はコメントを受け付けていません

A Few Moments Please: Scalable Graphon Learning via Moment Matching

要約

グラフンは、密度の高いグラフシーケンスの制限オブジェクトとして、ネットワークデータの統計分析において中心的な役割を果たします。
ただし、既存のグラフンの推定方法は、潜在変数の推定やGromov-Wasserstein距離などの費用のかかる指標に依存しているため、大規模なネットワークに対するスケーラビリティと解像度に依存しない近似に苦労することがよくあります。
この作業では、モーメントマッチングを介してグラフンを直接回復し、暗黙の神経表現(INR)を活用する新しいスケーラブルなグラフン推定器を提案します。
私たちのアプローチは、観察されたグラフから経験的サブグラフカウント(つまり、モーメント)を一致させるために、INR(グラフン値へのマッピング座標)をトレーニングすることにより、潜在変数モデリングを回避します。
この直接的な推定メカニズムは、多項式時間溶液を生成し、Gromov-Wassersteinの最適化の組み合わせの複雑さを決定的に回避します。
基本的な結果に基づいて、理論的保証を確立します。観測されたサブグラフモチーフが真のグラフンのモチーフを十分に表すと(十分に大きいまたは多数のグラフサンプルで満たされた状態)、推定グラフンは、グラウンドトゥルースからのカット距離で証明可能な上限を達成します。
さらに、Graphonベースの学習を強化するためのモーメントスペースで混合を実行するデータ増強技術であるTomemixupを紹介します。
私たちのグラフン推定方法は、小さなグラフでの高精度と大規模なグラフの優れた計算効率を実証する強力な経験的パフォーマンスを実現します。
さらに、MomentMixupは、ベンチマークの大部分でグラフ分類精度の改善を実証しました。

要約(オリジナル)

Graphons, as limit objects of dense graph sequences, play a central role in the statistical analysis of network data. However, existing graphon estimation methods often struggle with scalability to large networks and resolution-independent approximation, due to their reliance on estimating latent variables or costly metrics such as the Gromov-Wasserstein distance. In this work, we propose a novel, scalable graphon estimator that directly recovers the graphon via moment matching, leveraging implicit neural representations (INRs). Our approach avoids latent variable modeling by training an INR–mapping coordinates to graphon values–to match empirical subgraph counts (i.e., moments) from observed graphs. This direct estimation mechanism yields a polynomial-time solution and crucially sidesteps the combinatorial complexity of Gromov-Wasserstein optimization. Building on foundational results, we establish a theoretical guarantee: when the observed subgraph motifs sufficiently represent those of the true graphon (a condition met with sufficiently large or numerous graph samples), the estimated graphon achieves a provable upper bound in cut distance from the ground truth. Additionally, we introduce MomentMixup, a data augmentation technique that performs mixup in the moment space to enhance graphon-based learning. Our graphon estimation method achieves strong empirical performance–demonstrating high accuracy on small graphs and superior computational efficiency on large graphs–outperforming state-of-the-art scalable estimators in 75\% of benchmark settings and matching them in the remaining cases. Furthermore, MomentMixup demonstrated improved graph classification accuracy on the majority of our benchmarks.

arxiv情報

著者 Reza Ramezanpour,Victor M. Tenorio,Antonio G. Marques,Ashutosh Sabharwal,Santiago Segarra
発行日 2025-06-04 17:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Few Moments Please: Scalable Graphon Learning via Moment Matching はコメントを受け付けていません

QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering

要約

レビューベースの製品質問応答(PQA)により、ユーザーレビューからの洞察を活用することにより、eコマースプラットフォームが顧客クエリに自動的に対処することができます。
ただし、既存のPQAシステムは、顧客の意見の多様性を把握できず、単一の視点でのみ回答を生成します。
このペーパーでは、多様な顧客の意見を代表的なキーポイント(KPS)に要約し、ユーザークエリに効果的に回答するための普及を定量化することを目的とした、新しいタスクの定量的クエリに焦点を当てた要約(QQSUM)を紹介します。
検索された生成(RAG)はPQAに有望である一方で、その生成された答えは依然として視点の完全な多様性を捉えていない。
この課題に取り組むために、RAGを拡張するモデルQQSum-Ragは、KP指向のレトリバーとKPサマリジェネレーターを共同でトレーニングするために少数のショット学習を採用しており、多様で代表的な意見をキャプチャするKPベースの要約を可能にします。
実験結果は、QQSum-Ragが、意見のテキスト品質と定量化の精度の両方において、最先端のRAGベースラインと比較して優れたパフォーマンスを達成することを示しています。
ソースコードは、https://github.com/antangrocket1312/qqsummで入手できます

要約(オリジナル)

Review-based Product Question Answering (PQA) allows e-commerce platforms to automatically address customer queries by leveraging insights from user reviews. However, existing PQA systems generate answers with only a single perspective, failing to capture the diversity of customer opinions. In this paper we introduce a novel task Quantitative Query-Focused Summarization (QQSUM), which aims to summarize diverse customer opinions into representative Key Points (KPs) and quantify their prevalence to effectively answer user queries. While Retrieval-Augmented Generation (RAG) shows promise for PQA, its generated answers still fall short of capturing the full diversity of viewpoints. To tackle this challenge, our model QQSUM-RAG, which extends RAG, employs few-shot learning to jointly train a KP-oriented retriever and a KP summary generator, enabling KP-based summaries that capture diverse and representative opinions. Experimental results demonstrate that QQSUM-RAG achieves superior performance compared to state-of-the-art RAG baselines in both textual quality and quantification accuracy of opinions. Our source code is available at: https://github.com/antangrocket1312/QQSUMM

arxiv情報

著者 An Quang Tang,Xiuzhen Zhang,Minh Ngoc Dinh,Zhuang Li
発行日 2025-06-04 14:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering はコメントを受け付けていません

Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

要約

健康やライフスタイルのコーチングなど、肯定的な行動の変化を促進するように設計されたインタラクティブなエージェントを評価するための合成ユーザーを生成するためのエンドツーエンドのフレームワークを提示します。
合成ユーザーは、健康コーチングエージェントとの現実的な相互作用を確保するために、この研究では、健康とライフスタイルの条件、特に睡眠と糖尿病の管理に基づいています。
合成ユーザーは2つの段階で作成されます。まず、構造化されたデータは、基本的な人口統計と行動属性に加えて、実際の健康とライフスタイルの要因に基づいて生成されます。
第二に、合成ユーザーの完全なプロファイルは、構造化されたデータに条件付けられて開発されます。
合成ユーザーとコーチングエージェント間の相互作用は、コンコルディアなどの生成エージェントベースのモデルを使用して、または言語モデルを促すことによりシミュレートされます。
睡眠と糖尿病のコーチングのために2人の独立したエージェントをケーススタディとして使用して、このフレームワークの妥当性は、合成ユーザーのニーズと課題に関するコーチングエージェントの理解を分析することにより実証されています。
最後に、人間の専門家によるユーザーコーチの相互作用の複数の盲目的な評価を通じて、健康と行動の属性を持つ合成ユーザーが、そのような属性に基づいていない一般的な合成ユーザーと比較して、同じ属性を持つ本物の人間のユーザーをより正確に描写することを実証します。
提案されたフレームワークは、広範で現実的で根拠のあるシミュレーションされた相互作用を通じて、会話エージェントの効率的な開発の基盤を築きます。

要約(オリジナル)

We present an end-to-end framework for generating synthetic users for evaluating interactive agents designed to encourage positive behavior changes, such as in health and lifestyle coaching. The synthetic users are grounded in health and lifestyle conditions, specifically sleep and diabetes management in this study, to ensure realistic interactions with the health coaching agent. Synthetic users are created in two stages: first, structured data are generated grounded in real-world health and lifestyle factors in addition to basic demographics and behavioral attributes; second, full profiles of the synthetic users are developed conditioned on the structured data. Interactions between synthetic users and the coaching agent are simulated using generative agent-based models such as Concordia, or directly by prompting a language model. Using two independently-developed agents for sleep and diabetes coaching as case studies, the validity of this framework is demonstrated by analyzing the coaching agent’s understanding of the synthetic users’ needs and challenges. Finally, through multiple blinded evaluations of user-coach interactions by human experts, we demonstrate that our synthetic users with health and behavioral attributes more accurately portray real human users with the same attributes, compared to generic synthetic users not grounded in such attributes. The proposed framework lays the foundation for efficient development of conversational agents through extensive, realistic, and grounded simulated interactions.

arxiv情報

著者 Taedong Yun,Eric Yang,Mustafa Safdari,Jong Ha Lee,Vaishnavi Vinod Kumar,S. Sara Mahdavi,Jonathan Amar,Derek Peyton,Reut Aharony,Andreas Michaelides,Logan Schneider,Isaac Galatzer-Levy,Yugang Jia,John Canny,Arthur Gretton,Maja Matarić
発行日 2025-06-04 14:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions はコメントを受け付けていません

AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data

要約

背景:医療エージェントモデルの開発と検査のために合成記述被験者を提供するために、広範な条件と症状をカバーする現実世界の患者の出会いを活用する患者シミュレーターを提示します。
シミュレーターは、患者のプレゼンテーションと症状チェックエージェントとのマルチターン会話への現実的なアプローチを提供します。
目的:(1)実際のEHRデータから派生した患者ビネットに基づいて、AIヘルスエージェントを訓練およびテストするために、患者シミュレーターを構築およびインスタンス化する。
(2)患者シミュレーターが専門家の臨床プロバイダーに提供するシミュレートされた遭遇の妥当性とアラインメントをテストする。
(3)生成された現実的でデータ駆動型シミュレーションに関するこのようなLLMシステムの評価フレームワークを説明するために、提案されたシステムの予備評価をもたらします。
方法:最初に、実際のEHRの出会いから患者のビネットを導き出すことにより、現実的な臨床シナリオを構築しました。
これらのビネットは、さまざまな提示症状と根本的な条件をカバーしています。
次に、500を超える患者のビネットにわたる実際の患者の遭遇のシミュレーションとしての患者シミュレーターのパフォーマンスを評価します。
現在の病気の歴史を得るために、多ターンの質問を提供するために別のAIエージェントを活用しました。
結果として生じるマルチターン会話は、2人の専門家臨床医によって評価されました。
結果:臨床医は、同じ97.7%の症例で患者のビネットと一致して患者シミュレーターを採点しました。
会話履歴に基づいた抽出されたケースの概要は、99%の関連性がありました。
結論:症状チェック剤に対する患者の反応のシミュレーションを構築するために、実際のヘルスケア患者データから派生したビネットを組み込む方法論を開発しました。
この患者シミュレーターのパフォーマンスと整合性を使用して、多ターン会話型AIエージェントを大規模にトレーニングおよびテストできます。

要約(オリジナル)

Background: We present a Patient Simulator that leverages real world patient encounters which cover a broad range of conditions and symptoms to provide synthetic test subjects for development and testing of healthcare agentic models. The simulator provides a realistic approach to patient presentation and multi-turn conversation with a symptom-checking agent. Objectives: (1) To construct and instantiate a Patient Simulator to train and test an AI health agent, based on patient vignettes derived from real EHR data. (2) To test the validity and alignment of the simulated encounters provided by the Patient Simulator to expert human clinical providers. (3) To illustrate the evaluation framework of such an LLM system on the generated realistic, data-driven simulations — yielding a preliminary assessment of our proposed system. Methods: We first constructed realistic clinical scenarios by deriving patient vignettes from real-world EHR encounters. These vignettes cover a variety of presenting symptoms and underlying conditions. We then evaluate the performance of the Patient Simulator as a simulacrum of a real patient encounter across over 500 different patient vignettes. We leveraged a separate AI agent to provide multi-turn questions to obtain a history of present illness. The resulting multiturn conversations were evaluated by two expert clinicians. Results: Clinicians scored the Patient Simulator as consistent with the patient vignettes in those same 97.7% of cases. The extracted case summary based on the conversation history was 99% relevant. Conclusions: We developed a methodology to incorporate vignettes derived from real healthcare patient data to build a simulation of patient responses to symptom checking agents. The performance and alignment of this Patient Simulator could be used to train and test a multi-turn conversational AI agent at scale.

arxiv情報

著者 Sina Rashidian,Nan Li,Jonathan Amar,Jong Ha Lee,Sam Pugh,Eric Yang,Geoff Masterson,Myoung Cha,Yugang Jia,Akhil Vaid
発行日 2025-06-04 14:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data はコメントを受け付けていません

CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks

要約

大規模な言語モデル(LLM)は幅広いドメインを変換していますが、特に統合、要約、知識抽出などの複雑なオープンエンドタスクでは、出力を検証することは依然として重要な課題です。
これに対処するために、CheckEmbed(CE):シンプルでスケーラブルで正確な検証方法を紹介します。
CEは、SFR-embedding-Mistralのような強力な最新の埋め込みLLMモデルを使用して、各LLMの回答を単一の埋め込みベクトルに減らします。
BertscoreやSelfCheckgptなどの以前の方法は、Bertのような弱いエンコーダーに依存しており、トークンや文の粒度で動作することを強制しました。
対照的に、CEは、回答全レベルで直接高速で意味的に豊富な比較を実行し、精度とスケーラビリティの両方の主要な制限を克服します。
クラシックテキストの得点者(BLEUなど)、安定性ベースの方法(SelfCheckgptなど)、および生成評価者(LLM-As-A-Judgeなど)を含む13の検証ベースラインで包括的な設計と時間の複雑さ分析を実施します。
経験的結果は、CEが閉じたタスクとオープンエンドの両方のタスクの両方で幻覚を確実に検出することを示しています。
さらに、CEがテキストを超えてビジョンなどの他のモダリティに一般化し、実用的で多目的な検証フレームワークとして確立するという証拠を提示します。

要約(オリジナル)

Large Language Models (LLMs) are transforming a wide range of domains, yet verifying their outputs remains a significant challenge, especially for complex open-ended tasks such as consolidation, summarization, and knowledge extraction. To address this, we introduce CheckEmbed (CE): a simple, scalable, and accurate verification method. CE reduces each LLM answer to a single embedding vector using powerful modern embedding LLM models like SFR-Embedding-Mistral. Prior methods such as BERTScore and SelfCheckGPT relied on weaker encoders like BERT, forcing them to operate at token or sentence granularity. In contrast, CE performs fast, semantically rich comparisons directly at the whole-answer level, overcoming key limitations in both accuracy and scalability. We conduct a comprehensive design and time complexity analysis across 13 verification baselines, including classical text scorers (e.g., BLEU), stability-based methods (e.g., SelfCheckGPT), and generative evaluators (e.g., LLM-as-a-Judge), which highlights the effectiveness, efficiency, versatility, and simplicity of CE. Empirical results show that CE reliably detects hallucinations in both closed and open-ended tasks. We further present evidence that CE generalizes beyond text to other modalities such as vision, establishing it as a practical and versatile verification framework.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Marcin Copik,Robert Gerstenberger,Ales Kubicek,Piotr Nyczyk,Patrick Iff,Eric Schreiber,Tanja Srindran,Tomasz Lehmann,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-04 14:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks はコメントを受け付けていません

The mutual exclusivity bias of bilingual visually grounded speech models

要約

相互排他性(私)は、おなじみの言葉ではなく、子供の言語学習を促進するのではなく、斬新な言葉に関連付けられている戦略です。
最近の研究では、ペアの画像で英語のスピーチで訓練された視覚的に接地されたスピーチ(VGS)モデルでMEバイアスが発見されました。
しかし、私はまた、バイリンガルの子供たちで研究されています。
英語、フランス語、オランダ語の組み合わせでトレーニングされたバイリンガルVGSモデルを使用して、このパターンを計算的に調査します。
バイリンガルモデルは一般に、例外が存在しますが、単一言語モデルよりも弱いMEバイアスを示すことがわかります。
分析では、バイリンガルモデルの視覚的な組み合わせが組み合わされていることは、馴染みのあるデータの分散が小さく、斬新な概念と馴染みのある概念の間の混乱の増加を部分的に説明しています。
また、そもそもVGSモデルにMEバイアスが存在する理由についての新しい洞察も提供します。
コードとデータ:https://github.com/danoneata/me-vgs

要約(オリジナル)

Mutual exclusivity (ME) is a strategy where a novel word is associated with a novel object rather than a familiar one, facilitating language learning in children. Recent work has found an ME bias in a visually grounded speech (VGS) model trained on English speech with paired images. But ME has also been studied in bilingual children, who may employ it less due to cross-lingual ambiguity. We explore this pattern computationally using bilingual VGS models trained on combinations of English, French, and Dutch. We find that bilingual models generally exhibit a weaker ME bias than monolingual models, though exceptions exist. Analyses show that the combined visual embeddings of bilingual models have a smaller variance for familiar data, partly explaining the increase in confusion between novel and familiar concepts. We also provide new insights into why the ME bias exists in VGS models in the first place. Code and data: https://github.com/danoneata/me-vgs

arxiv情報

著者 Dan Oneata,Leanne Nortje,Yevgen Matusevych,Herman Kamper
発行日 2025-06-04 14:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | The mutual exclusivity bias of bilingual visually grounded speech models はコメントを受け付けていません