fairmetrics: An R package for group fairness evaluation

要約

公平性は、モデルが特定のグループ、特に人種、性別、年齢などの保護された属性によって定義されているグループに体系的に偏った結果を生成しないようにすることに焦点を当てた機械学習の成長領域(ML)です。
偏ったモデルは構造的不平等を永続させる可能性があるため、公平性を評価することはMLモデル開発の重要な側面です。
{fairmetrics} Rパッケージは、独立性(統計パリティなど)、分離(例えば、均等化されたオッズ)、および十分性(例えば、予測的なパリティ)に基づくメトリックを含む、多数のグループベースの公平性基準を厳密に評価するためのユーザーフレームワークを提供します。
グループベースの公平性基準は、モデルが事前に定義された一連のグループ全体で等しく正確であるか十分に調整されているかどうかを評価し、適切なバイアス緩和戦略を実装できるようにします。
{fairmetrics}は、便利なラッパー関数を介して複数のメトリックのポイントと間隔の両方の推定値を提供し、集中治療のための医療情報マート、バージョンII(mimic-ii)データベース(Goldberger et al。、2000; Raffa、2016)から派生したデータセットの例が含まれています。

要約(オリジナル)

Fairness is a growing area of machine learning (ML) that focuses on ensuring models do not produce systematically biased outcomes for specific groups, particularly those defined by protected attributes such as race, gender, or age. Evaluating fairness is a critical aspect of ML model development, as biased models can perpetuate structural inequalities. The {fairmetrics} R package offers a user-friendly framework for rigorously evaluating numerous group-based fairness criteria, including metrics based on independence (e.g., statistical parity), separation (e.g., equalized odds), and sufficiency (e.g., predictive parity). Group-based fairness criteria assess whether a model is equally accurate or well-calibrated across a set of predefined groups so that appropriate bias mitigation strategies can be implemented. {fairmetrics} provides both point and interval estimates for multiple metrics through a convenient wrapper function and includes an example dataset derived from the Medical Information Mart for Intensive Care, version II (MIMIC-II) database (Goldberger et al., 2000; Raffa, 2016).

arxiv情報

著者 Benjamin Smith,Jianhui Gao,Jessica Gronsbell
発行日 2025-06-06 17:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, G.3, stat.CO, stat.ML | fairmetrics: An R package for group fairness evaluation はコメントを受け付けていません

Neural Responses to Affective Sentences Reveal Signatures of Depression

要約

大うつ病性障害(MDD)は非常に一般的な精神的健康状態であり、感情的および自己参照的処理などのコア機能がどのように影響を受けるかを特定するには、その神経認知基盤のより深い理解が不可欠です。
私たちは、健康で落ち込んだ個人の表面脳波(EEG)を使用して、自己参照性の感情文に対する神経反応を測定することにより、うつ病が感情処理の時間的ダイナミクスをどのように変えるかを調査します。
我々の結果は、文の視聴中の神経活動における著しいグループレベルの違いを明らかにし、うつ病における感情的および自己参照情報の統合が混乱したことを示唆しています。
これらの応答で訓練されたディープラーニングモデルは、うつ病の参加者と健康を区別する際に0.707の受信機オペレーティング曲線(AUC)の下の領域を達成し、自殺念慮の有無にかかわらず抑うつサブグループを区別する際に0.624を達成します。
空間アブレーションは、主要な貢献者としてセマンティックおよび感情的な処理に関連する前方電極を強調します。
これらの発見は、将来の診断ツールを知らせる可能性のあるうつ病の安定した刺激駆動型の神経署名を示唆しています。

要約(オリジナル)

Major Depressive Disorder (MDD) is a highly prevalent mental health condition, and a deeper understanding of its neurocognitive foundations is essential for identifying how core functions such as emotional and self-referential processing are affected. We investigate how depression alters the temporal dynamics of emotional processing by measuring neural responses to self-referential affective sentences using surface electroencephalography (EEG) in healthy and depressed individuals. Our results reveal significant group-level differences in neural activity during sentence viewing, suggesting disrupted integration of emotional and self-referential information in depression. Deep learning model trained on these responses achieves an area under the receiver operating curve (AUC) of 0.707 in distinguishing healthy from depressed participants, and 0.624 in differentiating depressed subgroups with and without suicidal ideation. Spatial ablations highlight anterior electrodes associated with semantic and affective processing as key contributors. These findings suggest stable, stimulus-driven neural signatures of depression that may inform future diagnostic tools.

arxiv情報

著者 Aditya Kommineni,Woojae Jeong,Kleanthis Avramidis,Colin McDaniel,Myzelle Hughes,Thomas McGee,Elsi Kaiser,Kristina Lerman,Idan A. Blank,Dani Byrd,Assal Habibi,B. Rael Cahn,Sudarsana Kadiri,Takfarinas Medani,Richard M. Leahy,Shrikanth Narayanan
発行日 2025-06-06 17:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Neural Responses to Affective Sentences Reveal Signatures of Depression はコメントを受け付けていません

Lagrangian-based Equilibrium Propagation: generalisation to arbitrary boundary conditions & equivalence with Hamiltonian Echo Learning

要約

平衡伝播(EP)は、固定点の変動記述を活用する静的入力のエネルギーベースモデル(EBM)をトレーニングするための学習アルゴリズムです。
EPを時間変化する入力に拡張することは困難な問題です。変分の説明は、単なる固定点ではなくシステム全体の軌跡に適用され、境界条件を慎重に検討することが不可欠です。
この作業では、一般化されたラグランジアン平衡伝播(GLEP)を提示し、EPの変分定式化を時変入力に拡張します。
GLEPは、システムの境界条件に応じて異なる学習アルゴリズムを生成することを実証します。その多くは実装では非現実的です。
次に、最近提案された再発性HEL(RHEL)を含むハミルトニアンエコーラーニング(HEL)と以前の既知のハミルトニアンエコーバックプロパゲーション(HEB)アルゴリズムを含む – がGLEPの特別なケースとして導出できることを示します。
特に、HELはGLEPの唯一のインスタンスであり、EPをハードウェア実装のバックプロパゲーションの望ましい代替品にするプロパティを継承していることがわかりました。つまり、「推論と学習と学習の両方で同じシステムを使用する)に動作し、効率的に拡大します(モデルサイズに関係なく2つまたはそれ以上のパスを必要とします)。

要約(オリジナル)

Equilibrium Propagation (EP) is a learning algorithm for training Energy-based Models (EBMs) on static inputs which leverages the variational description of their fixed points. Extending EP to time-varying inputs is a challenging problem, as the variational description must apply to the entire system trajectory rather than just fixed points, and careful consideration of boundary conditions becomes essential. In this work, we present Generalized Lagrangian Equilibrium Propagation (GLEP), which extends the variational formulation of EP to time-varying inputs. We demonstrate that GLEP yields different learning algorithms depending on the boundary conditions of the system, many of which are impractical for implementation. We then show that Hamiltonian Echo Learning (HEL) — which includes the recently proposed Recurrent HEL (RHEL) and the earlier known Hamiltonian Echo Backpropagation (HEB) algorithms — can be derived as a special case of GLEP. Notably, HEL is the only instance of GLEP we found that inherits the properties that make EP a desirable alternative to backpropagation for hardware implementations: it operates in a ‘forward-only’ manner (i.e. using the same system for both inference and learning), it scales efficiently (requiring only two or more passes through the system regardless of model size), and enables local learning.

arxiv情報

著者 Guillaume Pourcel,Debabrota Basu,Maxence Ernoult,Aditya Gilra
発行日 2025-06-06 17:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Lagrangian-based Equilibrium Propagation: generalisation to arbitrary boundary conditions & equivalence with Hamiltonian Echo Learning はコメントを受け付けていません

Covering Number of Real Algebraic Varieties and Beyond: Improved Bounds and Applications

要約

数字をカバーすることは、近似アルゴリズム、ランダム化された寸法削減方法、平滑化された複雑さ分析などの開発に使用される強力なツールです。
この論文では、ユークリッド空間の多数のセットのカバー数、すなわち実際の代数品種、多項式マップの画像、および関係する多項式の変数の数と程度の点での画像の上限を証明します。
この境界は、ヨムディン・コムテによって最もよく知られている一般を著しく改善し、私たちの証拠ははるかに簡単です。
特に、私たちの結果は、多項式マップの画像と半自由セットの管状近傍の体積に新しい境界を与えます。ロッツとバス・ララリオの品種の結果は直接適用されません。
結果のパワーを3つの計算アプリケーションで説明します。
第一に、低カノニカルポリアディック(CP)ランクのテンソルのカバー数にほぼ最適な境界を導き出し、近似特性を定量化し、テンソル寸法の削減と再建のための重要な欠落した理論を埋めます。
第二に、ランダム化されたスケッチを介して多項式マップの画像の次元削減に縛られていることを証明します。これは、大規模な多項式最適化に直接適用されます。
最後に、合理的またはrelu活性化機能を備えた深いニューラルネットワークの一般化エラー境界を推測し、機械学習の文献で最も既知の結果を改善または一致させながら、一般化エラーに対するアーキテクチャの選択の影響を定量化するのに役立ちます。

要約(オリジナル)

Covering numbers are a powerful tool used in the development of approximation algorithms, randomized dimension reduction methods, smoothed complexity analysis, and others. In this paper we prove upper bounds on the covering number of numerous sets in Euclidean space, namely real algebraic varieties, images of polynomial maps and semialgebraic sets in terms of the number of variables and degrees of the polynomials involved. The bounds remarkably improve the best known general bound by Yomdin-Comte, and our proof is much more straightforward. In particular, our result gives new bounds on the volume of the tubular neighborhood of the image of a polynomial map and a semialgebraic set, where results for varieties by Lotz and Basu-Lerario are not directly applicable. We illustrate the power of the result on three computational applications. Firstly, we derive a near-optimal bound on the covering number of tensors with low canonical polyadic (CP) rank, quantifying their approximation properties and filling in an important missing piece of theory for tensor dimension reduction and reconstruction. Secondly, we prove a bound on dimensionality reduction of images of polynomial maps via randomized sketching, which has direct applications to large scale polynomial optimization. Finally, we deduce generalization error bounds for deep neural networks with rational or ReLU activation functions, improving or matching the best known results in the machine learning literature while helping to quantify the impact of architecture choice on generalization error.

arxiv情報

著者 Yifan Zhang,Joe Kileel
発行日 2025-06-06 17:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.AG, math.NA | Covering Number of Real Algebraic Varieties and Beyond: Improved Bounds and Applications はコメントを受け付けていません

Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

要約

大規模な言語モデルは、コード生成に優れていますが、洗練された推論を必要とする複雑なプログラミングタスクに苦労しています。
このギャップを埋めるために、従来のプロセス監督は、費用のかかるトレーニングデータを必要とする学習報酬モデルに依存し、報酬の不整合に苦しんでいますが、コンディショニングされた中間ステップを必要とする複雑なタスクでは結果の監督が失敗します。
実行可能な検証を活用することにより、プロセスと結果の監督を統一する結果改良プロセス監督を紹介します。ツリー構造の検索フレームワークは、戦略的な代替手段を生成し、実行メトリックをプロファイルし、ランタイムフィードバックを推論と統合する自己批判メカニズムを介して候補をスコアリングします。
5つのモデルと3つのベンチマークにわたる実験では、一貫した利益が示され、正確性が26.9%高く、コード効率が42.2%改善されました。
結果は、ORPSがLLMがコード生成においてローカルオプティマを克服できることを示しており、検証可能な結果と構造化された推論を組み合わせて複雑な課題に取り組むための有望な方向を示唆しています。
オープンソース:https://github.com/zhuohaoyu/orps

要約(オリジナル)

Large Language Models excel at code generation yet struggle with complex programming tasks that demand sophisticated reasoning. To bridge this gap, traditional process supervision relies on learned reward models requiring costly training data and suffering from reward misalignment, while outcome supervision fails for complex tasks needing coordinated intermediate steps. We introduce Outcome Refining Process Supervision, which unifies process and outcome supervision by leveraging executable verification: a tree-structured search framework generates strategic alternatives, profiles execution metrics, and scores candidates via self-critique mechanisms that integrate runtime feedback with reasoning. Experiments across 5 models and 3 benchmarks show consistent gains, with 26.9% higher correctness and 42.2% improved code efficiency. The results demonstrate that ORPS enables LLMs to overcome local optima in code generation, suggesting a promising direction for combining verifiable outcomes with structured reasoning to tackle complex challenges. We open-source at: https://github.com/zhuohaoyu/ORPS

arxiv情報

著者 Zhuohao Yu,Weizheng Gu,Yidong Wang,Xingru Jiang,Zhengran Zeng,Jindong Wang,Wei Ye,Shikun Zhang
発行日 2025-06-06 12:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation はコメントを受け付けていません

Large Language Models are Demonstration Pre-Selectors for Themselves

要約

大規模な言語モデル(LLMS)を使用したコンテキスト内学習(ICL)は、トレーニングデータ全体から少数のショットデモを選択することにより、強力な少数のショットパフォーマンスを提供します。
ただし、類似性またはダイバーシティスコアに依存してデモンストレーションを選択する既存のICLメソッドは、各クエリの大規模なデータセットから繰り返し検索したため、高い計算コストが発生します。
この目的のために、特定のLLMSに合わせたトレーニングデータに最も代表的な例を含むデモンストレーションの代表的なサブセットを識別する新しいプレセレクションフレームワークである、フィーダー(まだ必然的なデモンストレーションプレセレクター)を提案します。
このサブセットを構築するために、前選択段階で「充足度」と「必要」メトリックを導入し、代表的な例を効率的に識別するためにツリーベースのアルゴリズムを設計します。
事前に選択されると、この代表的なサブセットは完全なトレーニングデータを効果的に置き換え、ICLで同等のパフォーマンスを維持しながら効率を向上させることができます。
さらに、事前に選択されたサブセットは、微調整LLMSにもメリットがあり、パフォーマンスを犠牲にすることなくトレーニング効率を高めるバイレベルの最適化方法を導入します。
300mから8Bのパラメーターの範囲のLLMSを使用した実験は、フィーダーがパフォーマンスを維持しながら、ICLのさまざまなダウンストリームデモンストレーション選択戦略とシームレスに統合しながら、トレーニングデータサイズを20%以上削減できることを示しています。

要約(オリジナル)

In-context learning (ICL) with large language models (LLMs) delivers strong few-shot performance by choosing few-shot demonstrations from the entire training data. However, existing ICL methods, which rely on similarity or diversity scores to choose demonstrations, incur high computational costs due to repeatedly retrieval from large-scale datasets for each query. To this end, we propose FEEDER (FEw yet Essential Demonstration prE-selectoR), a novel pre-selection framework that identifies a representative subset of demonstrations containing the most representative examples in the training data, tailored to specific LLMs. To construct this subset, we introduce the ‘sufficiency’ and ‘necessity’ metrics in the pre-selection stage and design a tree-based algorithm to identify representative examples efficiently. Once pre-selected, this representative subset can effectively replace the full training data, improving efficiency while maintaining comparable performance in ICL. Additionally, our pre-selected subset also benefits fine-tuning LLMs, where we introduce a bi-level optimization method that enhances training efficiency without sacrificing performance. Experiments with LLMs ranging from 300M to 8B parameters show that FEEDER can reduce training data size by over 20% while maintaining performance and seamlessly integrating with various downstream demonstration selection strategies in ICL.

arxiv情報

著者 Jiarui Jin,Yuwei Wu,Haoxuan Li,Xiaoting He,Weinan Zhang,Yiming Yang,Yong Yu,Jun Wang,Mengyue Yang
発行日 2025-06-06 12:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models are Demonstration Pre-Selectors for Themselves はコメントを受け付けていません

MATP-BENCH: Can MLLM Be a Good Automated Theorem Prover for Multimodal Problems?

要約

ジオメトリのような多数の定理は、しばしばマルチモーダル形式(例えば、図)で提示されます。
人間は、そのような設定での視覚的推論から利益を得て、図を使用して直感を得て証明プロセスを導きます。
現代のマルチモーダル大手言語モデル(MLLM)は、幅広い数学的問題を解決する際の顕著な能力を実証しています。
ただし、特にマルチモーダルドメインの自動定理プロバー(ATPS)としてのMLLMの可能性は、露出していないままです。
この論文では、マルチモーダル自動定理プローバーとしてこの役割を評価するために設計された新しいマルチモーダル、マルチレベル、およびマルチ言語ベンチマークであるマルチモーダル自動化された定理ベンチマーク(MATPベンチ)を紹介します。
MATPベンチは、高校、大学、競争レベルの数学から描かれた1056のマルチモーダル定理で構成されています。
これらのすべてのマルチモーダルの問題には、Lean 4、Coq、およびIsabelleの形式化が伴うため、ベンチマークは幅広い定理プロビングフレームワークと互換性があります。
MATPベンチでは、モデルが洗練された視覚的理解を、数学的知識の広範なスペクトルの習得と、正式な証明を生成するために厳密な象徴的推論を統合する必要があります。
MATPベンチを使用して、さまざまな高度なマルチモーダル言語モデルを評価します。
既存の方法は、限られた数のMATPベンチの問題を解決することしかできず、このベンチマークが自動定理証明に関する研究のためのオープンな課題をもたらすことを示しています。

要約(オリジナル)

Numerous theorems, such as those in geometry, are often presented in multimodal forms (e.g., diagrams). Humans benefit from visual reasoning in such settings, using diagrams to gain intuition and guide the proof process. Modern Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in solving a wide range of mathematical problems. However, the potential of MLLMs as Automated Theorem Provers (ATPs), specifically in the multimodal domain, remains underexplored. In this paper, we introduce the Multimodal Automated Theorem Proving benchmark (MATP-BENCH), a new Multimodal, Multi-level, and Multi-language benchmark designed to evaluate MLLMs in this role as multimodal automated theorem provers. MATP-BENCH consists of 1056 multimodal theorems drawn from high school, university, and competition-level mathematics. All these multimodal problems are accompanied by formalizations in Lean 4, Coq and Isabelle, thus making the benchmark compatible with a wide range of theorem-proving frameworks. MATP-BENCH requires models to integrate sophisticated visual understanding with mastery of a broad spectrum of mathematical knowledge and rigorous symbolic reasoning to generate formal proofs. We use MATP-BENCH to evaluate a variety of advanced multimodal language models. Existing methods can only solve a limited number of the MATP-BENCH problems, indicating that this benchmark poses an open challenge for research on automated theorem proving.

arxiv情報

著者 Zhitao He,Zongwei Lyu,Dazhong Chen,Dadi Guo,Yi R. Fung
発行日 2025-06-06 12:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MATP-BENCH: Can MLLM Be a Good Automated Theorem Prover for Multimodal Problems? はコメントを受け付けていません

Rethinking Machine Unlearning in Image Generation Models

要約

画像生成モデルの急増と広範なアプリケーションにより、データのプライバシーとコンテンツの安全性は大きな懸念となり、ユーザー、サービスプロバイダー、および政策立案者から大きな注目を集めました。
Machine Ulearning(MU)は、これらの課題に対処するための費用対効果が高く有望な手段として認識されています。
いくつかの進歩にもかかわらず、イメージ生成モデルの未学習(IGMU)は、たとえば、実際には顕著なギャップに直面しています。
これらは、学習メカニズムの理解と実用的な未学習アルゴリズムの設計を妨げる可能性があります。
私たちは、既存の最先端の未解決のアルゴリズムと評価基準について徹底的な評価を実行し、IGMUタスクのいくつかの重要な欠陥と課題を発見します。
これらの制限によって推進されているため、IGMUの包括的な理解、標準化された分類、信頼できる評価を促進するために、いくつかの中心的な貢献をします。
具体的には、(1)新しい階層タスク分類フレームワークであるCatigmuを設計します。
IGMUの詳細な実装ガイダンスを提供し、未学習アルゴリズムの設計とテストベッドの構築を支援します。
(2)包括的な評価フレームワークであるEvaligmuを紹介します。
5つの重要な側面にわたる信頼できる定量的メトリックが含まれています。
(3)IGMUの広範な評価、判断のためのコンテンツ検出器のトレーニング、および最先端の未学習アルゴリズムのベンチマークに使用できる高品質の未定のデータセットであるDataIGMを構築します。
EvaligmuとDataIGMを使用すると、ほとんどの既存のIGMUアルゴリズムが、特に保存と堅牢性のために、異なる評価の次元にわたって未学習の井戸を処理できないことがわかります。
コードとモデルはhttps://github.com/ryliu68/igmuで入手できます。

要約(オリジナル)

With the surge and widespread application of image generation models, data privacy and content safety have become major concerns and attracted great attention from users, service providers, and policymakers. Machine unlearning (MU) is recognized as a cost-effective and promising means to address these challenges. Despite some advancements, image generation model unlearning (IGMU) still faces remarkable gaps in practice, e.g., unclear task discrimination and unlearning guidelines, lack of an effective evaluation framework, and unreliable evaluation metrics. These can hinder the understanding of unlearning mechanisms and the design of practical unlearning algorithms. We perform exhaustive assessments over existing state-of-the-art unlearning algorithms and evaluation standards, and discover several critical flaws and challenges in IGMU tasks. Driven by these limitations, we make several core contributions, to facilitate the comprehensive understanding, standardized categorization, and reliable evaluation of IGMU. Specifically, (1) We design CatIGMU, a novel hierarchical task categorization framework. It provides detailed implementation guidance for IGMU, assisting in the design of unlearning algorithms and the construction of testbeds. (2) We introduce EvalIGMU, a comprehensive evaluation framework. It includes reliable quantitative metrics across five critical aspects. (3) We construct DataIGM, a high-quality unlearning dataset, which can be used for extensive evaluations of IGMU, training content detectors for judgment, and benchmarking the state-of-the-art unlearning algorithms. With EvalIGMU and DataIGM, we discover that most existing IGMU algorithms cannot handle the unlearning well across different evaluation dimensions, especially for preservation and robustness. Code and models are available at https://github.com/ryliu68/IGMU.

arxiv情報

著者 Renyang Liu,Wenjie Feng,Tianwei Zhang,Wei Zhou,Xueqi Cheng,See-Kiong Ng
発行日 2025-06-06 12:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV | Rethinking Machine Unlearning in Image Generation Models はコメントを受け付けていません

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

要約

専門家レベルの医療知識と高度な推論を評価するために、非常に挑戦的で包括的なベンチマークであるMedxpertqaを紹介します。
Medxpertqaには、17の専門分野と11のボディシステムにまたがる4,460の質問が含まれています。
これには、テキスト評価用のテキストとマルチモーダル評価用のMMの2つのサブセットが含まれています。
特に、MMは、画像キャプテンから生成された単純なQAペアを使用した従来の医療マルチモーダルベンチマークとは一線を画す、患者記録や試験結果を含む、多様な画像や豊富な臨床情報を含む専門家レベルの試験の質問を導入します。
Medxpertqaは、厳密なフィルタリングと増強を適用して、MEDQAなどの既存のベンチマークの不十分な難しさに対処し、臨床的関連性と包括性を改善するために専門委員会の質問を組み込みます。
データ統合を実行して、データの漏れリスクを軽減し、精度と信頼性を確保するために複数の専門家レビューを実施します。
\ベンチマーク上の18の主要なモデルを評価します。
さらに、薬は現実世界の意思決定に深く関係しており、数学やコードを超えて推論能力を評価するための豊かで代表的な設定を提供します。
この目的のために、O1様モデルの評価を促進するために、推論指向のサブセットを開発します。
コードとデータは、https://github.com/tsinghuac3i/medxpertqaで入手できます

要約(オリジナル)

We introduce MedXpertQA, a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA includes 4,460 questions spanning 17 specialties and 11 body systems. It includes two subsets, Text for text evaluation and MM for multimodal evaluation. Notably, MM introduces expert-level exam questions with diverse images and rich clinical information, including patient records and examination results, setting it apart from traditional medical multimodal benchmarks with simple QA pairs generated from image captions. MedXpertQA applies rigorous filtering and augmentation to address the insufficient difficulty of existing benchmarks like MedQA, and incorporates specialty board questions to improve clinical relevance and comprehensiveness. We perform data synthesis to mitigate data leakage risk and conduct multiple rounds of expert reviews to ensure accuracy and reliability. We evaluate 18 leading models on \benchmark. Moreover, medicine is deeply connected to real-world decision-making, providing a rich and representative setting for assessing reasoning abilities beyond mathematics and code. To this end, we develop a reasoning-oriented subset to facilitate the assessment of o1-like models. Code and data are available at: https://github.com/TsinghuaC3I/MedXpertQA

arxiv情報

著者 Yuxin Zuo,Shang Qu,Yifei Li,Zhangren Chen,Xuekai Zhu,Ermo Hua,Kaiyan Zhang,Ning Ding,Bowen Zhou
発行日 2025-06-06 13:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding はコメントを受け付けていません

Hey, That’s My Data! Label-Only Dataset Inference in Large Language Models

要約

大規模な言語モデル(LLM)は、解釈、推論、人間の言語の生成に優れていることにより、自然言語処理に革命をもたらしました。
ただし、大規模で独自のデータセットへの依存は、重大な課題を提起します。そのようなデータの不正使用は、著作権侵害と重大な経済的害につながる可能性があります。
既存のデータセット推論方法は、通常、疑わしいトレーニング資料を検出するためのログ確率に依存しますが、多くの主要なLLMはこれらの信号を差し控えまたは難読化し始めています。
この現実は、内部モデルロジットに依存せずにデータセットメンバーシップを識別できるラベルのみのアプローチの差し迫った必要性を強調しています。
このギャップに対処し、壊滅的な忘却を活用するラベルのみのデータセット関数フレームワークであるCatShiftを導入することにより、LLMが新しいデータにさらされたときに以前に学習した知識を上書きする傾向を導入します。
疑わしいデータセットがモデルで以前に見られた場合、その一部で微調整すると、モデルの出力の顕著な調整後のシフトがトリガーされます。
逆に、真に新しいデータは、より控えめな変化を引き出します。
疑わしいデータセットのモデルの出力シフトを既知の非会員検証セットのものと比較することにより、疑わしいセットがモデルの元のトレーニングコーパスの一部である可能性が高いかどうかを統計的に決定します。
オープンソースとAPIベースのLLMの両方での広範な実験は、ロジット不可能な設定におけるCatShiftの有効性を検証し、独自のデータを保護するための堅牢で実用的なソリューションを提供します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized Natural Language Processing by excelling at interpreting, reasoning about, and generating human language. However, their reliance on large-scale, often proprietary datasets poses a critical challenge: unauthorized usage of such data can lead to copyright infringement and significant financial harm. Existing dataset-inference methods typically depend on log probabilities to detect suspicious training material, yet many leading LLMs have begun withholding or obfuscating these signals. This reality underscores the pressing need for label-only approaches capable of identifying dataset membership without relying on internal model logits. We address this gap by introducing CatShift, a label-only dataset-inference framework that capitalizes on catastrophic forgetting: the tendency of an LLM to overwrite previously learned knowledge when exposed to new data. If a suspicious dataset was previously seen by the model, fine-tuning on a portion of it triggers a pronounced post-tuning shift in the model’s outputs; conversely, truly novel data elicits more modest changes. By comparing the model’s output shifts for a suspicious dataset against those for a known non-member validation set, we statistically determine whether the suspicious set is likely to have been part of the model’s original training corpus. Extensive experiments on both open-source and API-based LLMs validate CatShift’s effectiveness in logit-inaccessible settings, offering a robust and practical solution for safeguarding proprietary data.

arxiv情報

著者 Chen Xiong,Zihao Wang,Rui Zhu,Tsung-Yi Ho,Pin-Yu Chen,Jingwei Xiong,Haixu Tang,Lucila Ohno-Machado
発行日 2025-06-06 13:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Hey, That’s My Data! Label-Only Dataset Inference in Large Language Models はコメントを受け付けていません