FairDropout: Using Example-Tied Dropout to Enhance Generalization of Minority Groups

要約

ディープラーニングモデルは、トレーニングデータにおいてスプリアスな機能を頻繁に活用して、低いトレーニングエラーを実現し、多くの場合、テスト分布のシフトに直面した場合に一般化が不十分になります。
この問題に対処するために、不均衡な学習、表現学習、および分類器の再調整からのさまざまな方法が提案されており、偽の相関に対する深いニューラルネットワークの堅牢性を高めることが提案されています。
この論文では、経験的リスクの最小化で訓練されたモデルは、少数派グループからのインスタンスを暗記しながら、多数派の例のためによく一般化する傾向があることを観察します。
記憶を示す最近の調査結果に基づいて、限られた数のニューロンにローカライズされる可能性があるため、この暗記は、この暗記を特定のニューロンにリダイレクトすることを目的とした方法として、例として取り付けられたドロップアウトを適用します。
ビジョン、言語、およびヘルスケアタスクを網羅するサブポピュレーションベンチマークスイートを使用してフェアドロップアウトを経験的に評価し、プアリオスな相関への依存を大幅に減らし、最先端の方法を上回ることを実証します。

要約(オリジナル)

Deep learning models frequently exploit spurious features in training data to achieve low training error, often resulting in poor generalization when faced with shifted testing distributions. To address this issue, various methods from imbalanced learning, representation learning, and classifier recalibration have been proposed to enhance the robustness of deep neural networks against spurious correlations. In this paper, we observe that models trained with empirical risk minimization tend to generalize well for examples from the majority groups while memorizing instances from minority groups. Building on recent findings that show memorization can be localized to a limited number of neurons, we apply example-tied dropout as a method we term FairDropout, aimed at redirecting this memorization to specific neurons that we subsequently drop out during inference. We empirically evaluate FairDropout using the subpopulation benchmark suite encompassing vision, language, and healthcare tasks, demonstrating that it significantly reduces reliance on spurious correlations, and outperforms state-of-the-art methods.

arxiv情報

著者 Geraldin Nanfack,Eugene Belilovsky
発行日 2025-02-10 17:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FairDropout: Using Example-Tied Dropout to Enhance Generalization of Minority Groups はコメントを受け付けていません

RSAttAE: An Information-Aware Attention-based Autoencoder Recommender System

要約

推奨システムは、情報検索、製薬業界、小売、エンターテイメントなど、現代生活において重要な役割を果たしています。
特に、エンターテインメントセクターは大きな注目を集め、かなりの利益を生み出します。
この作業は、顧客満足度を高めるために未知のユーザー映画の評価を予測するための新しい方法を提案しています。
これを達成するために、Movielens 100Kデータセットを利用します。
私たちのアプローチでは、意味のある表現を作成するための注意ベースの自動エンコーダーと、評価予測のためのxgboostメソッドを作成します。
結果は、私たちの提案が既存の最先端の方法のほとんどを上回ることを示しています。
可用性:github.com/computationiasbs/recommsys

要約(オリジナル)

Recommender systems play a crucial role in modern life, including information retrieval, the pharmaceutical industry, retail, and entertainment. The entertainment sector, in particular, attracts significant attention and generates substantial profits. This work proposes a new method for predicting unknown user-movie ratings to enhance customer satisfaction. To achieve this, we utilize the MovieLens 100K dataset. Our approach introduces an attention-based autoencoder to create meaningful representations and the XGBoost method for rating predictions. The results demonstrate that our proposal outperforms most of the existing state-of-the-art methods. Availability: github.com/ComputationIASBS/RecommSys

arxiv情報

著者 Amirhossein Dadashzadeh Taromi,Sina Heydari,Mohsen Hooshmand,Majid Ramezani
発行日 2025-02-10 17:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | RSAttAE: An Information-Aware Attention-based Autoencoder Recommender System はコメントを受け付けていません

Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent

要約

この論文では、確率的勾配降下(SGD)のPolyAK-Ruppert平均繰り返しの中央境界定理で非症状の収束率を確立します。
私たちの分析は、ShaoとZhang(2022)の独立したランダム変数の非線形統計のガウス近似の結果に基づいています。
この結果を使用して、最適化問題の最適なソリューションのための信頼性セットを構築するための乗数ブートストラップの非亜麻信の妥当性を証明します。
特に、私たちのアプローチは、polyak-ruppert sgd iterateの制限的な共分散を近似する必要性を回避します。これにより、最大$ 1/\ sqrt {n} $までの整数距離の近似速度を導き出すことができます。

要約(オリジナル)

In this paper, we establish non-asymptotic convergence rates in the central limit theorem for Polyak-Ruppert-averaged iterates of stochastic gradient descent (SGD). Our analysis builds on the result of the Gaussian approximation for nonlinear statistics of independent random variables of Shao and Zhang (2022). Using this result, we prove the non-asymptotic validity of the multiplier bootstrap for constructing the confidence sets for the optimal solution of an optimization problem. In particular, our approach avoids the need to approximate the limiting covariance of Polyak-Ruppert SGD iterates, which allows us to derive approximation rates in convex distance of order up to $1/\sqrt{n}$.

arxiv情報

著者 Marina Sheshukova,Sergey Samsonov,Denis Belomestny,Eric Moulines,Qi-Man Shao,Zhuo-Song Zhang,Alexey Naumov
発行日 2025-02-10 17:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60F05, 62L20, 93E35, cs.LG, math.OC, math.PR, math.ST, stat.ML, stat.TH | Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent はコメントを受け付けていません

VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data

要約

プロセス報酬モデル(PRM)は、推論時間計算の増加を活用することにより、大規模な言語モデル(LLM)の数学的推論の強化に効果的であることが証明されています。
ただし、それらは主に数学データについて訓練されており、非数学的なドメインへの一般化可能性は厳密に研究されていません。
これに応じて、この作業は最初に、現在のPRMが他のドメインでパフォーマンスが低いことを示しています。
この制限に対処するために、新しいデータ生成と注釈法を使用して生成された合成推論データで訓練されたマルチドメインPRMであるVersapRMを紹介します。
VersapRMは、多様なドメイン全体で一貫したパフォーマンスの向上を達成します。
たとえば、法律のMMLU-Proカテゴリでは、加重多数派の投票を介してVersapRMが、多数派の投票ベースラインで7.9%のパフォーマンス増加を達成し、QWEN2.5-MATH-PRMの1.3%を上回ります。
さらに、VersaPRMのすべてのデータ、コード、モデルをオープンソースすることにより、コミュニティに貢献します。

要約(オリジナル)

Process Reward Models (PRMs) have proven effective at enhancing mathematical reasoning for Large Language Models (LLMs) by leveraging increased inference-time computation. However, they are predominantly trained on mathematical data and their generalizability to non-mathematical domains has not been rigorously studied. In response, this work first shows that current PRMs have poor performance in other domains. To address this limitation, we introduce VersaPRM, a multi-domain PRM trained on synthetic reasoning data generated using our novel data generation and annotation method. VersaPRM achieves consistent performance gains across diverse domains. For instance, in the MMLU-Pro category of Law, VersaPRM via weighted majority voting, achieves a 7.9% performance gain over the majority voting baseline — surpassing Qwen2.5-Math-PRM’s gain of 1.3%. We further contribute to the community by open-sourcing all data, code and models for VersaPRM.

arxiv情報

著者 Thomas Zeng,Shuibai Zhang,Shutong Wu,Christian Classen,Daewon Chae,Ethan Ewer,Minjae Lee,Heeju Kim,Wonjun Kang,Jackson Kunde,Ying Fan,Jungtaek Kim,Hyung Il Koo,Kannan Ramchandran,Dimitris Papailiopoulos,Kangwook Lee
発行日 2025-02-10 18:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data はコメントを受け付けていません

Resurrecting saturated LLM benchmarks with adversarial encoding

要約

最近の研究は、ベンチマークの質問の小さな変化がLLMSの推論とリコールを減らすことができることを示しました。
このような変更は、WMDP-Bio、GPQA、およびMMLUバリアントの3つのベンチマークに、質問と回答オプションのペアリングのペアリングとその他の変更を検討します。
より有能なモデルの場合、これらは予測可能にパフォーマンスを低下させ、基本的にベンチマークのパフォーマンスの上限を高め、再び不飽和にします。
このアプローチでは、古いベンチマークを復活させることができることをお勧めします。

要約(オリジナル)

Recent work showed that small changes in benchmark questions can reduce LLMs’ reasoning and recall. We explore two such changes: pairing questions and adding more answer options, on three benchmarks: WMDP-bio, GPQA, and MMLU variants. We find that for more capable models, these predictably reduce performance, essentially heightening the performance ceiling of a benchmark and unsaturating it again. We suggest this approach can resurrect old benchmarks.

arxiv情報

著者 Igor Ivanov,Dmitrii Volkov
発行日 2025-02-10 18:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Resurrecting saturated LLM benchmarks with adversarial encoding はコメントを受け付けていません

A note on the physical interpretation of neural PDE’s

要約

機械学習(ML)アルゴリズムと離散動的システム(DDS)との間の正式かつ実質的な類似性を緩和形式で強調します。
アナロジーは、物理的な情報伝播プロセスの観点から重みの透明な解釈を提供し、対応する離散ダイナミクスのローカルアトラクタを使用して、フォワードMLステップのモデル関数を識別します。
現在のMLアプリケーションの説明可能性を改善することに加えて、この類推は、重み数を減らした新しいクラスMLアルゴリズムの開発を促進する可能性があります。

要約(オリジナル)

We highlight a formal and substantial analogy between Machine Learning (ML) algorithms and discrete dynamical systems (DDS) in relaxation form. The analogy offers a transparent interpretation of the weights in terms of physical information-propagation processes and identifies the model function of the forward ML step with the local attractor of the corresponding discrete dynamics. Besides improving the explainability of current ML applications, this analogy may also facilitate the development of a new class ML algorithms with a reduced number of weights.

arxiv情報

著者 Sauro Succi
発行日 2025-02-10 18:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, physics.comp-ph | A note on the physical interpretation of neural PDE’s はコメントを受け付けていません

Incentivizing Desirable Effort Profiles in Strategic Classification: The Role of Causality and Uncertainty

要約

エージェントが分類の結果を改善するために機能を変更できるバイナリ意思決定設定で戦略的分類を研究します。
重要なことに、私たちの仕事は、さまざまな機能にわたる因果構造を考慮し、特定の機能での努力が他の機能に影響を与える可能性があることを認めていることです。
私たちの仕事の主な目標は、\ emphingを理解することです{いつ、どのくらいのエージェントの努力が望ましい機能に投資されるか}、これが展開された分類器、エージェントの機能の因果構造、それらを変更する能力、およびそれらを変更することによってどのように影響されるかです。
分類器と特徴因果グラフに関するエージェントが利用できる情報。
完全な情報ケースでは、エージェントが分類器と問題の因果構造を知っている場合、合理的なエージェントがプリンシパルが好む機能に焦点を合わせることを保証する条件を導き出します。
特別な場合は扱いやすいものの、望ましい動作を誘導するために分類器を設計することは一般に非凸であることを示します。
また、分析は、エージェントが分類器または因果グラフに関する不完全な情報を持っている設定に拡張します。
最適な努力の選択は、一般的な不確実性の下でも非凸の問題ですが、この選択の問題が扱いやすくなる部分的な不確実性の特別なケースを強調します。
我々の結果は、不確実性がエージェントが、予想される重要性と分散の低下を備えた機能を支持するように駆り立て、主要な好みとの誤解を妨げる可能性があることを示しています。
最後に、心血管疾患のリスク研究に基づく数値実験は、不確実性の下で望ましい修正を奨励する方法を示しています。

要約(オリジナル)

We study strategic classification in binary decision-making settings where agents can modify their features in order to improve their classification outcomes. Importantly, our work considers the causal structure across different features, acknowledging that effort in a given feature may affect other features. The main goal of our work is to understand \emph{when and how much agent effort is invested towards desirable features}, and how this is influenced by the deployed classifier, the causal structure of the agent’s features, their ability to modify them, and the information available to the agent about the classifier and the feature causal graph. In the complete information case, when agents know the classifier and the causal structure of the problem, we derive conditions ensuring that rational agents focus on features favored by the principal. We show that designing classifiers to induce desirable behavior is generally non-convex, though tractable in special cases. We also extend our analysis to settings where agents have incomplete information about the classifier or the causal graph. While optimal effort selection is again a non-convex problem under general uncertainty, we highlight special cases of partial uncertainty where this selection problem becomes tractable. Our results indicate that uncertainty drives agents to favor features with higher expected importance and lower variance, potentially misaligning with principal preferences. Finally, numerical experiments based on a cardiovascular disease risk study illustrate how to incentivize desirable modifications under uncertainty.

arxiv情報

著者 Valia Efthymiou,Chara Podimata,Diptangshu Sen,Juba Ziani
発行日 2025-02-10 18:22:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.GT, cs.LG | Incentivizing Desirable Effort Profiles in Strategic Classification: The Role of Causality and Uncertainty はコメントを受け付けていません

Private Federated Learning In Real World Application — A Case Study

要約

このペーパーでは、エッジデバイスでプライベートフェデレートラーニング(PFL)を使用した機械学習モデルトレーニングの実装を紹介します。
PFLを使用して、ユーザーのプライベートデータを使用してモデルをトレーニングするという課題に対処する新しいフレームワークを紹介します。
このフレームワークにより、ユーザーデータが個々のデバイスに残ることが保証されます。これは、プライバシー保証を使用して集約するために、必須モデルの更新のみが中央サーバーに送信されることを保証します。
アプリ選択モデルのアーキテクチャについて詳しく説明します。これには、不確実性管理を通じて注意メカニズムとあいまいさの取り扱いを備えたニューラルネットワークが組み込まれています。
オフラインシミュレーションおよびデバイストレーニングで実施された実験は、実際のシナリオでのアプローチの実現可能性を示しています。
私たちの結果は、プライバシー基準を順守しながら、時間の経過に伴うユーザーの動作の変化に適応することにより、アプリ選択モデルの精度を改善するPFLの可能性を示しています。
この調査から得られた洞察は、PFLの実装を検討している業界にとって重要であり、ユーザーデータプライバシーを確​​保しながら、エッジデバイスで予測モデルを直接トレーニングするための堅牢な戦略を提供します。

要約(オリジナル)

This paper presents an implementation of machine learning model training using private federated learning (PFL) on edge devices. We introduce a novel framework that uses PFL to address the challenge of training a model using users’ private data. The framework ensures that user data remain on individual devices, with only essential model updates transmitted to a central server for aggregation with privacy guarantees. We detail the architecture of our app selection model, which incorporates a neural network with attention mechanisms and ambiguity handling through uncertainty management. Experiments conducted through off-line simulations and on device training demonstrate the feasibility of our approach in real-world scenarios. Our results show the potential of PFL to improve the accuracy of an app selection model by adapting to changes in user behavior over time, while adhering to privacy standards. The insights gained from this study are important for industries looking to implement PFL, offering a robust strategy for training a predictive model directly on edge devices while ensuring user data privacy.

arxiv情報

著者 An Ji,Bortik Bandyopadhyay,Congzheng Song,Natarajan Krishnaswami,Prabal Vashisht,Rigel Smiroldo,Isabel Litton,Sayantan Mahinder,Mona Chitnis,Andrew W Hill
発行日 2025-02-10 18:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Private Federated Learning In Real World Application — A Case Study はコメントを受け付けていません

Case for a unified surrogate modelling framework in the age of AI

要約

代理モデルは、自然科学、エンジニアリング、および機械学習で広く使用されており、複雑なシステムを近似し、計算コストを削減します。
ただし、現在のランドスケープには、データ収集、サンプリング設計、モデルクラスの選択、評価メトリック、およびダウンストリームタスクパフォ​​ーマンス分析など、パイプラインの重要な段階にわたる標準化がありません。
この断片化は、再現性、信頼性、およびクロスドメインの適用性を制限します。
この問題は、AI革命とそれが提供する新しいサロゲートモデルクラスのスイートによってのみ悪化しています。
このポジションペーパーでは、サロゲートモデルの開発と評価を導くための統一されたフレームワークが緊急に必要であると主張します。
包括的なパイプラインを構築するための重要な手順の概要を説明し、ドメイン固有のフレームワークの利点などの代替視点について説明します。
標準化されたアプローチを提唱することにより、このペーパーでは、代理モデリングの信頼性の向上、学際的な知識移転を促進し、その結果、科学的進歩を加速しようとしています。

要約(オリジナル)

Surrogate models are widely used in natural sciences, engineering, and machine learning to approximate complex systems and reduce computational costs. However, the current landscape lacks standardisation across key stages of the pipeline, including data collection, sampling design, model class selection, evaluation metrics, and downstream task performance analysis. This fragmentation limits reproducibility, reliability, and cross-domain applicability. The issue has only been exacerbated by the AI revolution and a new suite of surrogate model classes that it offers. In this position paper, we argue for the urgent need for a unified framework to guide the development and evaluation of surrogate models. We outline essential steps for constructing a comprehensive pipeline and discuss alternative perspectives, such as the benefits of domain-specific frameworks. By advocating for a standardised approach, this paper seeks to improve the reliability of surrogate modelling, foster cross-disciplinary knowledge transfer, and, as a result, accelerate scientific progress.

arxiv情報

著者 Elizaveta Semenova
発行日 2025-02-10 18:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO | Case for a unified surrogate modelling framework in the age of AI はコメントを受け付けていません

When, Where and Why to Average Weights?

要約

トレーニング軌道に沿った平均チェックポイントは、機械学習モデルの一般化パフォーマンスを改善し、トレーニング時間を短縮するためのシンプルで強力なアプローチです。
これらの潜在的な利益に動機付けられ、この手法を公正かつ徹底的にベンチマークするために、最新の深い学習における平均化技術の広範な評価を提示します。これは、algoperf \ citep {dahl_benchmarking_2023}を使用して実行します。

最近の文献で示唆されているように、体重平均がトレーニング時間を短縮し、一般化を改善し、学習率の崩壊を置き換えることができるかどうかを調査します。
7つのアーキテクチャとデータセットにわたる評価により、平均化はトレーニングを大幅に加速し、最小限の実装とメモリコストの価格でかなりの効率向上をもたらし、考慮されたすべてのワークロードの一般化を軽度に改善します。
最後に、平均化レートアニーリングと学習レートのアニーリングの関係を調査し、2つを最適に組み合わせて最高のパフォーマンスを実現する方法を示します。

要約(オリジナル)

Averaging checkpoints along the training trajectory is a simple yet powerful approach to improve the generalization performance of Machine Learning models and reduce training time. Motivated by these potential gains, and in an effort to fairly and thoroughly benchmark this technique, we present an extensive evaluation of averaging techniques in modern Deep Learning, which we perform using AlgoPerf \citep{dahl_benchmarking_2023}, a large-scale benchmark for optimization algorithms. We investigate whether weight averaging can reduce training time, improve generalization, and replace learning rate decay, as suggested by recent literature. Our evaluation across seven architectures and datasets reveals that averaging significantly accelerates training and yields considerable efficiency gains, at the price of a minimal implementation and memory cost, while mildly improving generalization across all considered workloads. Finally, we explore the relationship between averaging and learning rate annealing and show how to optimally combine the two to achieve the best performances.

arxiv情報

著者 Niccolò Ajroldi,Antonio Orvieto,Jonas Geiping
発行日 2025-02-10 18:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | When, Where and Why to Average Weights? はコメントを受け付けていません