Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class

要約

クラス分布の不均衡の処理表形式データ上の分類器を構築することは、長年の関心の問題となっています。
人気のあるアプローチの1つは、合成されたデータを使用してトレーニングデータセットを増強することです。
古典的な増強技術は、既存の少数派クラスの例の線形補間に限定されていましたが、最近、より高い容量の深い生成モデルがより大きな約束を提供しています。
ただし、深い生成モデルを構築する際のクラス分布における不均衡の処理も困難な問題であり、不均衡な分類器モデルトレーニングとして広範囲に研究されていません。
最先端の深い生成モデルは、多数派の例よりもかなり低品質の少数派の例をもたらすことを示しています。
%このホワイトペーパーでは、少数派クラスを過小評価する生成モデルの不均衡なデータトレーニングを訓練した不均衡なデータセットを観察することから始めます。
少数派と多数派の分布が重複する地域のクラスを導入することにより、バイナリクラスのラベルを三元クラスラベルに変換するという新しい手法を提案します。
トレーニングセットのこの前処理だけで、いくつかの最先端の拡散およびGANベースのモデルにまたがるデータの品質が大幅に向上することを示します。
合成データを使用して分類器をトレーニングしている間、トレーニングデータからオーバーラップクラスを削除し、精度の向上の理由を正当化します。
4つの実際のデータセット、5つの異なる分類子、5つの生成モデルで広範な実験を実行し、この方法が最新モデルのシンセサイザーパフォーマンスだけでなく、分類器のパフォーマンスも強化することを実証します。

要約(オリジナル)

Handling imbalance in class distribution when building a classifier over tabular data has been a problem of long-standing interest. One popular approach is augmenting the training dataset with synthetically generated data. While classical augmentation techniques were limited to linear interpolation of existing minority class examples, recently higher capacity deep generative models are providing greater promise. However, handling of imbalance in class distribution when building a deep generative model is also a challenging problem, that has not been studied as extensively as imbalanced classifier model training. We show that state-of-the-art deep generative models yield significantly lower-quality minority examples than majority examples. %In this paper, we start with the observation that imbalanced data training of generative models trained imbalanced dataset which under-represent the minority class. We propose a novel technique of converting the binary class labels to ternary class labels by introducing a class for the region where minority and majority distributions overlap. We show that just this pre-processing of the training set, significantly improves the quality of data generated spanning several state-of-the-art diffusion and GAN-based models. While training the classifier using synthetic data, we remove the overlap class from the training data and justify the reasons behind the enhanced accuracy. We perform extensive experiments on four real-life datasets, five different classifiers, and five generative models demonstrating that our method enhances not only the synthesizer performance of state-of-the-art models but also the classifier performance.

arxiv情報

著者 Annie D’souza,Swetha M,Sunita Sarawagi
発行日 2025-02-19 15:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class はコメントを受け付けていません

Mixup Regularization: A Probabilistic Perspective

要約

近年、混合の正則化は、トレーニングデータの凸の組み合わせに関するトレーニングにより、ディープラーニングモデルの一般化パフォーマンスを改善する効果的な方法として人気を博しています。
多くの混合バリアントが調査されていますが、条件付き密度の推定と確率的機械学習に対する技術の適切な採用は、比較的未開拓のままです。
この作業では、条件付き密度推定タスクに適した確率的融合に基づいた混合の正規化のための新しいフレームワークを紹介します。
指数ファミリーのメンバーに従って配布されたデータの場合、尤度関数を対数線形プーリングを使用して分析的に融合できることを示します。
さらに、確率的混合の拡張を提案します。これにより、ニューラルネットワークの任意の中間層での入力の融合が可能になります。
標準の混合バリアントとのアプローチを比較する理論分析を提供します。
合成および実際のデータセットの経験的結果は、既存の混合バリアントと比較して、提案されたフレームワークの利点を示しています。

要約(オリジナル)

In recent years, mixup regularization has gained popularity as an effective way to improve the generalization performance of deep learning models by training on convex combinations of training data. While many mixup variants have been explored, the proper adoption of the technique to conditional density estimation and probabilistic machine learning remains relatively unexplored. This work introduces a novel framework for mixup regularization based on probabilistic fusion that is better suited for conditional density estimation tasks. For data distributed according to a member of the exponential family, we show that likelihood functions can be analytically fused using log-linear pooling. We further propose an extension of probabilistic mixup, which allows for fusion of inputs at an arbitrary intermediate layer of the neural network. We provide a theoretical analysis comparing our approach to standard mixup variants. Empirical results on synthetic and real datasets demonstrate the benefits of our proposed framework compared to existing mixup variants.

arxiv情報

著者 Yousef El-Laham,Niccolo Dalmasso,Svitlana Vyetrenko,Vamsi Potluru,Manuela Veloso
発行日 2025-02-19 15:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Mixup Regularization: A Probabilistic Perspective はコメントを受け付けていません

Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets

要約

合成データは、ヘルスケアやファイナンスなどのセクターのプライバシー強化テクノロジー(PET)として注目を集めています。
実際のアプリケーションで合成データを使用する場合、保護保証を提供することが重要です。
文献では、表形式データに対して2つのファミリーのアプローチが提案されています。一方で、類似性に基づいた方法は、トレーニングと合成データの類似性のレベルを見つけることを目的としています。
実際、生成されたデータが一貫して列車データと同一である場合、生成されたデータが一貫してあまりにも同一である場合、プライバシー違反が発生する可能性があります。
一方、攻撃ベースの方法は、合成データセットに対する意図的な攻撃を引き起こします。
これらの攻撃の成功率は、合成データセットの安全性を明らかにしています。
この論文では、より代表的なスペースにデータを埋め込むことにより、合成データセットのプライバシー評価を改善する対照的な方法を紹介します。
これは、多数のデータ型と属性を取り巻く障害を克服します。
また、類似性測定および攻撃ベクトルとして直感的な距離メトリックを使用することもできます。
公開されているデータセットを使用した一連の実験では、対照的な学習ベースの埋め込みを使用する場合と使用せずに、類似性ベースの方法と攻撃ベースの方法のパフォーマンスを比較します。
私たちの結果は、GDPRが言及するプライバシーの条件を明示的にモデル化するより高度なメトリックと同様に、比較的効率的で実装しやすいプライバシーメトリックが等しくパフォーマンスできることを示しています。

要約(オリジナル)

Synthetic data has garnered attention as a Privacy Enhancing Technology (PET) in sectors such as healthcare and finance. When using synthetic data in practical applications, it is important to provide protection guarantees. In the literature, two family of approaches are proposed for tabular data: on the one hand, Similarity-based methods aim at finding the level of similarity between training and synthetic data. Indeed, a privacy breach can occur if the generated data is consistently too similar or even identical to the train data. On the other hand, Attack-based methods conduce deliberate attacks on synthetic datasets. The success rates of these attacks reveal how secure the synthetic datasets are. In this paper, we introduce a contrastive method that improves privacy assessment of synthetic datasets by embedding the data in a more representative space. This overcomes obstacles surrounding the multitude of data types and attributes. It also makes the use of intuitive distance metrics possible for similarity measurements and as an attack vector. In a series of experiments with publicly available datasets, we compare the performances of similarity-based and attack-based methods, both with and without use of the contrastive learning-based embeddings. Our results show that relatively efficient, easy to implement privacy metrics can perform equally well as more advanced metrics explicitly modeling conditions for privacy referred to by the GDPR.

arxiv情報

著者 Milton Nicolás Plasencia Palacios,Sebastiano Saccani,Gabriele Sgroi,Alexander Boudewijn,Luca Bortolussi
発行日 2025-02-19 15:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets はコメントを受け付けていません

Evaluation of EAS directions based on TAIGA HiSCORE data using fully connected neural networks

要約

広範なエアシャワーの方向を使用してガンマ量子の源を決定し、一次粒子のエネルギーを推定する上で重要な役割を果たします。
Taiga実験の非イメージングチェレンコフ検出器ステーションヒスコアの配列からのデータは、光電子の数と検出時間を登録して、シャワーの方向を高い精度で推定することができます。
この作業では、シャワーの方向推定値を取得するために、ガンマQuantaのモンテカルロシミュレーションTaiga Hiscoreデータでトレーニングされた人工ニューラルネットワークを使用します。
ニューラルネットワークは、いくつかのヒスコアステーションからの部分的なデータを入力として使用して、スキップ接続を備えた多層パーセプトロンです。
複合推定値は、ニューラルネットワークによる複数の個々の推定値から導き出されます。
最初の段階で得られた方向推定値を使用して、入力データを変換して推定値を改善する2段階アルゴリズムを適用します。
最終推定値の平均誤差は0.25度未満です。
このアプローチは、Taiga実験で使用されるいくつかのタイプの検出器からのデータのマルチモーダル分析に使用されます。

要約(オリジナル)

The direction of extensive air showers can be used to determine the source of gamma quanta and plays an important role in estimating the energy of the primary particle. The data from an array of non-imaging Cherenkov detector stations HiSCORE in the TAIGA experiment registering the number of photoelectrons and detection time can be used to estimate the shower direction with high accuracy. In this work, we use artificial neural networks trained on Monte Carlo-simulated TAIGA HiSCORE data for gamma quanta to obtain shower direction estimates. The neural networks are multilayer perceptrons with skip connections using partial data from several HiSCORE stations as inputs; composite estimates are derived from multiple individual estimates by the neural networks. We apply a two-stage algorithm in which the direction estimates obtained in the first stage are used to transform the input data and refine the estimates. The mean error of the final estimates is less than 0.25 degrees. The approach will be used for multimodal analysis of the data from several types of detectors used in the TAIGA experiment.

arxiv情報

著者 A. P. Kryukov,S. P. Polyakov,Yu. Yu. Dubenskaya,E. O. Gres,E. B. Postnikov,P. A. Volchugov,D. P. Zhurov
発行日 2025-02-19 16:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.HE, astro-ph.IM, cs.LG | Evaluation of EAS directions based on TAIGA HiSCORE data using fully connected neural networks はコメントを受け付けていません

Generalization bounds for mixing processes via delayed online-to-PAC conversions

要約

非I.I.Dで統計学習アルゴリズムの一般化誤差を研究します。
設定、トレーニングデータが固定混合プロセスからサンプリングされます。
遅延フィードバックを伴うオンライン学習の削減に基づいて、このシナリオの分析フレームワークを開発します。
特に、後悔のあるオンライン学習アルゴリズムの存在(遅延フィードバックを伴うオンライン学習の特別に構築されたゲームにおける固定統計学習アルゴリズムに対して)を意味することを示しています)は、データシーケンスがあっても、上記の統計学習方法の低い一般化エラーを意味することを示しています。
混合時系列からサンプリング。
レートは、オンライン学習ゲームの遅延量と連続したデータポイント間の依存度との間のトレードオフを示しています。
プロセスの混合時間の。

要約(オリジナル)

We study the generalization error of statistical learning algorithms in a non-i.i.d. setting, where the training data is sampled from a stationary mixing process. We develop an analytic framework for this scenario based on a reduction to online learning with delayed feedback. In particular, we show that the existence of an online learning algorithm with bounded regret (against a fixed statistical learning algorithm in a specially constructed game of online learning with delayed feedback) implies low generalization error of said statistical learning method even if the data sequence is sampled from a mixing time series. The rates demonstrate a trade-off between the amount of delay in the online learning game and the degree of dependence between consecutive data points, with near-optimal rates recovered in a number of well-studied settings when the delay is tuned appropriately as a function of the mixing time of the process.

arxiv情報

著者 Baptiste Abeles,Eugenio Clerico,Gergely Neu
発行日 2025-02-19 16:17:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Generalization bounds for mixing processes via delayed online-to-PAC conversions はコメントを受け付けていません

Using Constraints to Discover Sparse and Alternative Subgroup Descriptions

要約

サブグループの発見方法により、ユーザーはデータセット内の興味深い領域の簡単な説明を取得できます。
サブグループの発見で制約を使用すると、解釈性がさらに向上する可能性があります。
この記事では、2つのタイプの制約に焦点を当てます。まず、サブグループの説明で使用される機能の数を制限し、後者をまばらにします。
第二に、特定のサブグループとして同様のデータオブジェクトをカバーするが、異なる機能を使用する代替サブグループの説明を見つけるという新しい最適化の問題を提案します。
両方の制約タイプをヒューリスティックなサブグループの発見方法に統合する方法について説明します。
さらに、ホワイトボックスの最適化問題としてのサブグループ発見の新しい満足度モジュロ理論(SMT)の定式化を提案します。
さらに、両方の制約タイプがNPハード最適化問題につながることを証明します。
最後に、27のバイナリ分類データセットを使用して、制約のないサブグループの発見のためのアルゴリズムとソルバーベースの検索を比較します。
ヒューリスティック検索方法は、制約のあるシナリオでも、短い実行時間内に高品質のサブグループを生成することが多いことを観察します。

要約(オリジナル)

Subgroup-discovery methods allow users to obtain simple descriptions of interesting regions in a dataset. Using constraints in subgroup discovery can enhance interpretability even further. In this article, we focus on two types of constraints: First, we limit the number of features used in subgroup descriptions, making the latter sparse. Second, we propose the novel optimization problem of finding alternative subgroup descriptions, which cover a similar set of data objects as a given subgroup but use different features. We describe how to integrate both constraint types into heuristic subgroup-discovery methods. Further, we propose a novel Satisfiability Modulo Theories (SMT) formulation of subgroup discovery as a white-box optimization problem, which allows solver-based search for subgroups and is open to a variety of constraint types. Additionally, we prove that both constraint types lead to an NP-hard optimization problem. Finally, we employ 27 binary-classification datasets to compare algorithmic and solver-based search for unconstrained and constrained subgroup discovery. We observe that heuristic search methods often yield high-quality subgroups within a short runtime, also in scenarios with constraints.

arxiv情報

著者 Jakob Bach
発行日 2025-02-19 16:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Using Constraints to Discover Sparse and Alternative Subgroup Descriptions はコメントを受け付けていません

Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment

要約

大規模な言語モデルを人間の好みに合わせて最近の進歩は、ベスト・ア・ナス蒸留(債券)の重要性の高まりを裏付けています。
ただし、サンプルと計算の非効率性のため、反復結合アルゴリズムは実際には非常に高価です。
このペーパーでは、一見異なるアルゴリズムパラダイムを統一する統一された絆と自己プレイの整合性との間の統一されたゲーム理論的なつながりを明らかにすることにより、問題に対処します。
接続に基づいて、パラメーター空間の反復結合に近い正規化された勝利優位性最適化のための一連の効率的なアルゴリズムを使用して、新しいフレームワーク、勝利率の優位性(Wind)を確立します。
四角損失の目的を持つ風のバリアントの1つに対して、証明可能なサンプル効率保証を提供します。
実験結果は、アルゴリズムが計算を加速するだけでなく、既存の方法と比較して優れたサンプル効率を達成することを確認しています。

要約(オリジナル)

Recent advances in aligning large language models with human preferences have corroborated the growing importance of best-of-N distillation (BOND). However, the iterative BOND algorithm is prohibitively expensive in practice due to the sample and computation inefficiency. This paper addresses the problem by revealing a unified game-theoretic connection between iterative BOND and self-play alignment, which unifies seemingly disparate algorithmic paradigms. Based on the connection, we establish a novel framework, WIN rate Dominance (WIND), with a series of efficient algorithms for regularized win rate dominance optimization that approximates iterative BOND in the parameter space. We provides provable sample efficiency guarantee for one of the WIND variant with the square loss objective. The experimental results confirm that our algorithm not only accelerates the computation, but also achieves superior sample efficiency compared to existing methods.

arxiv情報

著者 Tong Yang,Jincheng Mei,Hanjun Dai,Zixin Wen,Shicong Cen,Dale Schuurmans,Yuejie Chi,Bo Dai
発行日 2025-02-19 16:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment はコメントを受け付けていません

ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch

要約

Arraybotは、触覚センサーと統合された垂直方向のスライド柱の16ドルの16ドルの配列で構成される分散操作システムであり、卓上オブジェクトを同時にサポート、知覚、操作できます。
一般化可能な分散操作に向けて、制御ポリシーの自動発見のために補強学習(RL)アルゴリズムを活用します。
非常に冗長なアクションに直面して、空間的に局所的なアクションパッチと周波数領域の低周波アクションを考慮することにより、アクション空間を再構築することを提案します。
この再形成されたアクションスペースを使用すると、触覚観測のみを介して多様なオブジェクトを再配置できるRLエージェントをトレーニングします。
驚くべきことに、発見されたポリシーは、シミュレーターの目に見えないオブジェクトの形状に一般化するだけでなく、ドメインのランダム化なしに物理ロボットに転送することもできます。
展開されたポリシーを活用して、豊富な実世界の操作タスクを提示し、分散操作のためのArraybotでのRLの大きな可能性を示しています。

要約(オリジナル)

We present ArrayBot, a distributed manipulation system consisting of a $16 \times 16$ array of vertically sliding pillars integrated with tactile sensors, which can simultaneously support, perceive, and manipulate the tabletop objects. Towards generalizable distributed manipulation, we leverage reinforcement learning (RL) algorithms for the automatic discovery of control policies. In the face of the massively redundant actions, we propose to reshape the action space by considering the spatially local action patch and the low-frequency actions in the frequency domain. With this reshaped action space, we train RL agents that can relocate diverse objects through tactile observations only. Surprisingly, we find that the discovered policy can not only generalize to unseen object shapes in the simulator but also transfer to the physical robot without any domain randomization. Leveraging the deployed policy, we present abundant real-world manipulation tasks, illustrating the vast potential of RL on ArrayBot for distributed manipulation.

arxiv情報

著者 Zhengrong Xue,Han Zhang,Jingwen Cheng,Zhengmao He,Yuanchen Ju,Changyi Lin,Gu Zhang,Huazhe Xu
発行日 2025-02-19 17:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch はコメントを受け付けていません

Refining embeddings with fill-tuning: data-efficient generalised performance improvements for materials foundation models

要約

前処理された基礎モデルは、幅広いダウンストリームタスクに使用できる埋め込みを学びます。
これらの埋め込みは一般的なパフォーマンスを最適化し、特定のタスクで不十分に正確な場合は、パフォーマンスを改善するためにモデルを微調整できます。
現在のすべての方法論について、この操作は、すべての分散式タスクのパフォーマンスを必然的に分解します。
この作業では、特定の下流タスクに適していないが、埋め込みの貧しい領域を修正することを目指している基礎モデルの継続的な事前供与のためのデータセットを生成するための新しい方法論である「Fill-Tuning」を提示します。
粗さ分析の適用を潜在宇宙のトポロジーに提示し、埋め込みの改善に最も価値のあるデータを提案するためにそれを使用する方法を示します。
$ o(10^9)$ data Pointsでトレーニングされた一連の最先端の材料ファンデーションモデルに塗りつぶしを適用し、すべてのダウンストリームタスクでほぼ1%のモデルの改善を示し、100個のデータを追加してください。
ポイント。
この方法は、微調整の計算コストでの基礎モデルの一般的な改善へのルートを提供します。

要約(オリジナル)

Pretrained foundation models learn embeddings that can be used for a wide range of downstream tasks. These embeddings optimise general performance, and if insufficiently accurate at a specific task the model can be fine-tuned to improve performance. For all current methodologies this operation necessarily degrades performance on all out-of-distribution tasks. In this work we present ‘fill-tuning’, a novel methodology to generate datasets for continued pretraining of foundation models that are not suited to a particular downstream task, but instead aim to correct poor regions of the embedding. We present the application of roughness analysis to latent space topologies and illustrate how it can be used to propose data that will be most valuable to improving the embedding. We apply fill-tuning to a set of state-of-the-art materials foundation models trained on $O(10^9)$ data points and show model improvement of almost 1% in all downstream tasks with the addition of only 100 data points. This method provides a route to the general improvement of foundation models at the computational cost of fine-tuning.

arxiv情報

著者 Matthew P. Wilson,Edward O. Pyzer-Knapp,Nicolas Galichet,Luke Dicks
発行日 2025-02-19 17:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Refining embeddings with fill-tuning: data-efficient generalised performance improvements for materials foundation models はコメントを受け付けていません

Neural Green’s Operators for Parametric Partial Differential Equations

要約

この作業では、線形部分微分方程式(PDE)のパラメトリックファミリーのソリューション演算子を学習する新しいニューラルオペレーターネットワークアーキテクチャであるNeural Greenの演算子(NGO)を紹介します。
NGOの構造は、このようなソリューション演算子のグリーンの定式化から直接導出されています。
Deep Operator Networks(DeepOnets)およびVariationAlly Mimetic Operator Networks(Varmions)と同様に、NGOは、サブネットワークから返される係数から返される基底関数の観点からPDEのソリューションの拡大を構成します。
別のサブネットワーク。
ただし、Greenの定式化に従って、NGOは、DeeponetsやVarmionsの場合のように、サンプリングされた値ではなく、入力関数の加重平均を受け入れます。
標準的な線形パラメトリックPDEへのNGOの適用は、トレーニング分布内にあるデータをテストする際にディープネット、バーミオン、フーリエ神経演算子と競合し続けているが、トレーニング分布外で生成されたより細かいデータをテストするときに堅牢に一般化することを示しています。

さらに、NGOによって返されるグリーンの関数の明示的な表現により、PDEの数値ソルバー用の効果的な前処理者の構築が可能になることを示します。

要約(オリジナル)

This work introduces neural Green’s operators (NGOs), a novel neural operator network architecture that learns the solution operator for a parametric family of linear partial differential equations (PDEs). Our construction of NGOs is derived directly from the Green’s formulation of such a solution operator. Similar to deep operator networks (DeepONets) and variationally mimetic operator networks (VarMiONs), NGOs constitutes an expansion of the solution to the PDE in terms of basis functions, that is returned from a sub-network, contracted with coefficients, that are returned from another sub-network. However, in accordance with the Green’s formulation, NGOs accept weighted averages of the input functions, rather than sampled values thereof, as is the case in DeepONets and VarMiONs. Application of NGOs to canonical linear parametric PDEs shows that, while they remain competitive with DeepONets, VarMiONs and Fourier neural operators when testing on data that lie within the training distribution, they robustly generalize when testing on finer-scale data generated outside of the training distribution. Furthermore, we show that the explicit representation of the Green’s function that is returned by NGOs enables the construction of effective preconditioners for numerical solvers for PDEs.

arxiv情報

著者 Hugo Melchers,Joost Prins,Michael Abdelmalik
発行日 2025-02-19 17:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, cs.NA, G.1.8, math.NA | Neural Green’s Operators for Parametric Partial Differential Equations はコメントを受け付けていません