Prior Learning in Introspective VAEs

要約

変分自動エンコーダー(VAE)は、教師なしの学習とデータ生成のための一般的なフレームワークです。
敵対的な目的の組み込みと、事前の学習メカニズムの統合が顕著な方向であるため、vaesの改善に焦点を当てた多くの方法が提案されています。
前者に関しては、指標のインスタンスは、低い可能性が非現実的なサンプルに割り当てられることを保証することを目的とした、最近導入された内省的なvaesの家族です。
この研究では、内省的なVAEファミリーの2人のメンバーのうちの1人であるソフトイントロヴェ(S-introvae)に焦点を当て、もう1つは元のイントロヴェです。
最先端のステータスとトレーニングの安定性について、S-Introvaeを選択します。
特に、このS-strovaeに事前にマルチモーダルと訓練可能な訓練可能なものを組み込むことの意味を調査します。
つまり、私たちは3番目のプレーヤーとして事前に策定し、デコーダーと協力して訓練されたときに、ナッシュの平衡をバニラSイントロバエと共有する事前の学習の効果的な方法を構成することを示します。
さらに、S-introvaeにおける最適なエルボの修正された定式化に基づいて、理論的に動機付けられた正則化、つまり(i)事前のトレーニングを安定させるための適応分散クリッピングを開発し、(ii)不活性な以前のモードの形成を阻止するための責任の正規化を開発します。
最後に、2D密度推定ベンチマークと、生成および表現学習におけるS-introvaeにおける事前の学習の効果を示す(F)-MnistおよびCIFAR-10データセットで構成される画像生成設定で一連のターゲット実験を実行します。

要約(オリジナル)

Variational Autoencoders (VAEs) are a popular framework for unsupervised learning and data generation. A plethora of methods have been proposed focusing on improving VAEs, with the incorporation of adversarial objectives and the integration of prior learning mechanisms being prominent directions. When it comes to the former, an indicative instance is the recently introduced family of Introspective VAEs aiming at ensuring that a low likelihood is assigned to unrealistic samples. In this study, we focus on the Soft-IntroVAE (S-IntroVAE), one of only two members of the Introspective VAE family, the other being the original IntroVAE. We select S-IntroVAE for its state-of-the-art status and its training stability. In particular, we investigate the implication of incorporating a multimodal and trainable prior into this S-IntroVAE. Namely, we formulate the prior as a third player and show that when trained in cooperation with the decoder constitutes an effective way for prior learning, which shares the Nash Equilibrium with the vanilla S-IntroVAE. Furthermore, based on a modified formulation of the optimal ELBO in S-IntroVAE, we develop theoretically motivated regularizations, namely (i) adaptive variance clipping to stabilize training when learning the prior and (ii) responsibility regularization to discourage the formation of inactive prior modes. Finally, we perform a series of targeted experiments on a 2D density estimation benchmark and in an image generation setting comprised of the (F)-MNIST and CIFAR-10 datasets demonstrating the effect of prior learning in S-IntroVAE in generation and representation learning.

arxiv情報

著者 Ioannis Athanasiadis,Fredrik Lindsten,Michael Felsberg
発行日 2025-06-04 16:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Prior Learning in Introspective VAEs はコメントを受け付けていません

Is the end of Insight in Sight ?

要約

深い学習の台頭は、洞察の長年の科学的理想、つまり根本的なメカニズムを明らかにすることにより現象を理解する人間の能力に挑戦します。
多くの最新のアプリケーションでは、正確な予測は解釈可能なモデルを必要としなくなり、説明可能性が現実的であるか意味のある目標であるかについての議論を促します。
物理学における私たちの観点から、私たちは具体的なケーススタディ:ボルツマン方程式によって支配された希少なガスダイナミクス問題について訓練された物理学に基づいたニューラルネットワーク(PINN)を通じてこの緊張を調べます。
システムの明確な構造と十分に理解された管理法にもかかわらず、訓練されたネットワークの重みはガウス分散ランダムマトリックスに似ており、関与する物理的原理の明白な痕跡はありません。
これは、深い学習と従来のシミュレーションが同じ結果への明確な認知パスに従う可能性があることを示唆しています – 1つは機械的洞察に基づいており、もう1つは統計的補間に基づいています。
私たちの調査結果は、説明可能なAIの限界と、解釈可能性が人為的推論において普遍的な基準を還元することができるかどうかについての重要な疑問を提起します。

要約(オリジナル)

The rise of deep learning challenges the longstanding scientific ideal of insight – the human capacity to understand phenomena by uncovering underlying mechanisms. In many modern applications, accurate predictions no longer require interpretable models, prompting debate about whether explainability is a realistic or even meaningful goal. From our perspective in physics, we examine this tension through a concrete case study: a physics-informed neural network (PINN) trained on a rarefied gas dynamics problem governed by the Boltzmann equation. Despite the system’s clear structure and well-understood governing laws, the trained network’s weights resemble Gaussian-distributed random matrices, with no evident trace of the physical principles involved. This suggests that deep learning and traditional simulation may follow distinct cognitive paths to the same outcome – one grounded in mechanistic insight, the other in statistical interpolation. Our findings raise critical questions about the limits of explainable AI and whether interpretability can – or should-remain a universal standard in artificial reasoning.

arxiv情報

著者 Jean-Michel Tucny,Mihir Durve,Sauro Succi
発行日 2025-06-04 16:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph, physics.data-an | Is the end of Insight in Sight ? はコメントを受け付けていません

$μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers

要約

学んだオプティマザー(LOS)は、ニューラルネットワークの壁1杯のトレーニング時間を大幅に短縮でき、トレーニングコストを大幅に削減できます。
ただし、特にメタトレーニング中に見られるネットワークよりも広いトレーニングネットワークの場合、目に見えないタスク(メタジェネラライス)を最適化するのに苦労する可能性があります。
これに対処するために、2つの最先端の学習オプティマイザーアーキテクチャの最大更新パラメーター化($ \ MU $ P)を導き出し、$ \ MU $パラメーター化LOS($ \ MU $ LOS)のシンプルなメタトレーニングレシピを提案します。
私たちの経験的評価は、既存の作業で訓練されているため、標準パラメーター化(SP)で訓練されたLOSと比較した場合、私たちのレシピでLOSメタトレーニングがメタジェネラル化を大幅に改善した場合、より広い目に見えないタスクに大幅に改善することを示しています。
また、レシピで訓練された$ \ mu $ losは、SPロスと比較した場合、より長いトレーニングホライゾン($ 25 \ times $ $ $ training)へのより深いネットワーク($ 5 \ times $メタトレーニング)へのメタジェネラル化を予期せず改善し、驚くべき一般化を示しています。

要約(オリジナル)

Learned optimizers (LOs) can significantly reduce the wall-clock training time of neural networks, substantially reducing training costs. However, they can struggle to optimize unseen tasks (meta-generalize), especially when training networks wider than those seen during meta-training. To address this, we derive the Maximal Update Parametrization ($\mu$P) for two state-of-the-art learned optimizer architectures and propose a simple meta-training recipe for $\mu$-parameterized LOs ($\mu$LOs). Our empirical evaluation demonstrates that LOs meta-trained with our recipe substantially improve meta-generalization to wider unseen tasks when compared to LOs trained under standard parametrization (SP), as they are trained in existing work. We also empirically observe that $\mu$LOs trained with our recipe exhibit unexpectedly improved meta-generalization to deeper networks ($5\times$ meta-training) and surprising generalization to much longer training horizons ($25\times$ meta-training) when compared to SP LOs.

arxiv情報

著者 Benjamin Thérien,Charles-Étienne Joseph,Boris Knyazev,Edouard Oyallon,Irina Rish,Eugene Belilovsky
発行日 2025-06-04 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | $μ$LO: Compute-Efficient Meta-Generalization of Learned Optimizers はコメントを受け付けていません

Faster Approx. Top-K: Harnessing the Full Power of Two Stages

要約

アレイから最大の$ k $要素を識別することを目的とするトップ$ k $の選択問題を検討します。
多くの機械学習アルゴリズムでトップ$ k $の選択が発生し、多くの場合、アクセラレータのボトルネックになり、高密度のマトリックス乗算に最適化されています。
この問題に対処するために、\ citet {chern2022tpuknnnearestneighbor}は、高速2段階の\ textit {近似}トップ$ $ k $アルゴリズムを提案しました。
このホワイトペーパーでは、このアルゴリズムの一般化バージョンを検討します。最初の段階では、各パーティションから約1 \ leq k ‘\ leq k $でトップ$ k’ $要素を選択します。
私たちの貢献は次のとおりです。(i)この一般化されたアルゴリズムの予想されるリコールの式を導き出し、第1段階でのパーティションを少なくする$ k ‘> 1 $を選択すると、元のアルゴリズムと同じ予想リコールを維持しながら、2番目の段階への入力サイズをより効果的に削減することを示しています。
\ citet {chern2022tpuknnnknearestneighbor}は、その論文の1つよりも$ 2 $ $ 2 $ $ 2 $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $で、リクルを犠牲にすることなく元のアルゴリズムよりも約1桁スピードアップを実現します。

要約(オリジナル)

We consider the Top-$K$ selection problem, which aims to identify the largest-$K$ elements from an array. Top-$K$ selection arises in many machine learning algorithms and often becomes a bottleneck on accelerators, which are optimized for dense matrix multiplications. To address this problem, \citet{chern2022tpuknnknearestneighbor} proposed a fast two-stage \textit{approximate} Top-$K$ algorithm: (i) partition the input array and select the top-$1$ element from each partition, (ii) sort this \textit{smaller subset} and return the top $K$ elements. In this paper, we consider a generalized version of this algorithm, where the first stage selects top-$K’$ elements, for some $1 \leq K’ \leq K$, from each partition. Our contributions are as follows: (i) we derive an expression for the expected recall of this generalized algorithm and show that choosing $K’ > 1$ with fewer partitions in the first stage reduces the input size to the second stage more effectively while maintaining the same expected recall as the original algorithm, (ii) we derive a bound on the expected recall for the original algorithm in \citet{chern2022tpuknnknearestneighbor} that is provably tighter by a factor of $2$ than the one in that paper, and (iii) we implement our algorithm on Cloud TPUv5e and achieve around an order of magnitude speedups over the original algorithm without sacrificing recall on real-world tasks.

arxiv情報

著者 Yashas Samaga,Varun Yerram,Spandana Raj Babbula,Prateek Jain,Praneeth Netrapalli
発行日 2025-06-04 17:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG | Faster Approx. Top-K: Harnessing the Full Power of Two Stages はコメントを受け付けていません

N$^2$: A Unified Python Package and Test Bench for Nearest Neighbor-Based Matrix Completion

要約

最近傍(NN)メソッドは、マトリックスの完了のための競争ツールとして再現され、エントリーごとのエラー境界、信頼区間、ミニマックスの最適性など、強力な経験的パフォーマンスと最近の理論的保証を提供します。
それらの単純さにもかかわらず、最近の研究は、NNアプローチがさまざまな欠落パターンに堅牢であり、多様なアプリケーション全体で効果的であることを示しています。
このペーパーでは、モジュール式の拡張可能なインターフェイスを介して、幅広いクラスのNNベースの方法を統合する統一されたPythonパッケージとテストベッドであるn $^2 $を紹介します。
研究者と実践者の両方のために構築されたn $^2 $は、迅速な実験とベンチマークをサポートしています。
このフレームワークを使用して、いくつかの設定で最新の結果を達成する新しいNNバリアントを紹介します。
また、ヘルスケアや推奨システムから、合成シナリオを超えてマトリックス完了方法をスト​​レステストするように設計された因果推論とLLM評価まで、実世界のデータセットのベンチマークスイートをリリースします。
私たちの実験は、古典的な方法が理想化されたデータに優れている一方で、NNベースの手法が実際の設定で一貫してそれらを上回ることを示しています。

要約(オリジナル)

Nearest neighbor (NN) methods have re-emerged as competitive tools for matrix completion, offering strong empirical performance and recent theoretical guarantees, including entry-wise error bounds, confidence intervals, and minimax optimality. Despite their simplicity, recent work has shown that NN approaches are robust to a range of missingness patterns and effective across diverse applications. This paper introduces N$^2$, a unified Python package and testbed that consolidates a broad class of NN-based methods through a modular, extensible interface. Built for both researchers and practitioners, N$^2$ supports rapid experimentation and benchmarking. Using this framework, we introduce a new NN variant that achieves state-of-the-art results in several settings. We also release a benchmark suite of real-world datasets, from healthcare and recommender systems to causal inference and LLM evaluation, designed to stress-test matrix completion methods beyond synthetic scenarios. Our experiments demonstrate that while classical methods excel on idealized data, NN-based techniques consistently outperform them in real-world settings.

arxiv情報

著者 Caleb Chin,Aashish Khubchandani,Harshvardhan Maskara,Kyuseong Choi,Jacob Feitelberg,Albert Gong,Manit Paul,Tathagata Sadhukhan,Anish Agarwal,Raaz Dwivedi
発行日 2025-06-04 17:04:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | N$^2$: A Unified Python Package and Test Bench for Nearest Neighbor-Based Matrix Completion はコメントを受け付けていません

Estimation of the reduced density matrix and entanglement entropies using autoregressive networks

要約

古典的な2次元スピンシステムとの対応を使用して、量子スピンチェーンのモンテカルロシミュレーションに自己網性ニューラルネットワークの適用を提示します。
密度行列の要素を直接評価するために、連続スピンの条件付き確率を推定できるニューラルネットワークの階層を使用します。
ISINGチェーンを例として使用して、最大5スピンで構築された間隔のR \ ‘Enyi Bipartite Entanglementエントロピーの基底状態の連続制限を計算します。
私たちのアーキテクチャは、固定時間の離散化と格子量のための単一のトレーニングで必要なすべてのマトリックス要素を推定できることを実証します。
私たちの方法は、おそらく欠陥がある他のタイプのスピンチェーンに適用でき、非ゼロ温度での熱状態のエンタングルメントエントロピーを推定することができます。

要約(オリジナル)

We present an application of autoregressive neural networks to Monte Carlo simulations of quantum spin chains using the correspondence with classical two-dimensional spin systems. We use a hierarchy of neural networks capable of estimating conditional probabilities of consecutive spins to evaluate elements of reduced density matrices directly. Using the Ising chain as an example, we calculate the continuum limit of the ground state’s von Neumann and R\’enyi bipartite entanglement entropies of an interval built of up to 5 spins. We demonstrate that our architecture is able to estimate all the needed matrix elements with just a single training for a fixed time discretization and lattice volume. Our method can be applied to other types of spin chains, possibly with defects, as well as to estimating entanglement entropies of thermal states at non-zero temperature.

arxiv情報

著者 Piotr Białas,Piotr Korcyl,Tomasz Stebel,Dawid Zapolski
発行日 2025-06-04 17:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, hep-lat, hep-th, quant-ph | Estimation of the reduced density matrix and entanglement entropies using autoregressive networks はコメントを受け付けていません

Does Prompt Design Impact Quality of Data Imputation by LLMs?

要約

現実的な合成表形式データを生成することは、機械学習における重要な課題を提示します。
このデータにクラスの不均衡の問題が含まれている場合、複雑さの別の層が追加されます。
このペーパーでは、大規模な言語モデルのコンテキスト学習能力を活用する新しいトークン認識データ代入法を紹介します。
これは、構造化されたグループごとのCSVスタイルのプロンプト手法と、入力プロンプトの無関係なコンテキスト情報の排除の組み合わせによって達成されます。
このアプローチは、2つのクラスで均衡するバイナリ分類データセットでテストし、分類ベースの評価メトリックを使用して代入の有効性を評価します。
実験結果は、特にサイズが比較的小さいデータセットの場合、ベースラインプロンプトと比較して、補完的な品質を維持または改善しながら、アプローチが入力プロンプトサイズを大幅に削減することを示しています。
この提示された作業の貢献は2つあります – 1)合成データ生成のLLMを活用する際の迅速な設計の重要性に光を当て、2)計算制約内で実用的なソリューションを提供することにより、欠損データを持つクラス吸収データセットのLLMベースのデータ代入の重要なギャップに対処します。
私たちの仕事が、LLMSの信じられないほどの可能性を活用し、合成データ生成のための迅速なエンジニアリング技術を活用することについてのさらなる研究と議論を促進することを願っています。

要約(オリジナル)

Generating realistic synthetic tabular data presents a critical challenge in machine learning. It adds another layer of complexity when this data contain class imbalance problems. This paper presents a novel token-aware data imputation method that leverages the in-context learning capabilities of large language models. This is achieved through the combination of a structured group-wise CSV-style prompting technique and the elimination of irrelevant contextual information in the input prompt. We test this approach with two class-imbalanced binary classification datasets and evaluate the effectiveness of imputation using classification-based evaluation metrics. The experimental results demonstrate that our approach significantly reduces the input prompt size while maintaining or improving imputation quality compared to our baseline prompt, especially for datasets that are of relatively smaller in size. The contributions of this presented work is two-fold — 1) it sheds light on the importance of prompt design when leveraging LLMs for synthetic data generation and 2) it addresses a critical gap in LLM-based data imputation for class-imbalanced datasets with missing data by providing a practical solution within computational constraints. We hope that our work will foster further research and discussions about leveraging the incredible potential of LLMs and prompt engineering techniques for synthetic data generation.

arxiv情報

著者 Shreenidhi Srinivasan,Lydia Manikonda
発行日 2025-06-04 17:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG | Does Prompt Design Impact Quality of Data Imputation by LLMs? はコメントを受け付けていません

OpenThoughts: Data Recipes for Reasoning Models

要約

推論モデルは、数学、コード、科学を含む多くのベンチマークで急速に進歩しています。
しかし、最先端のモデルは、公開情報がほとんどまたはまったく利用できない独自のデータセットに依存しているため、推論に最適なトレーニングレシピについてまだ多くの未解決の質問があります。
これに対処するために、Openthoughtsプロジェクトの目標は、トレーニング推論モデルのためのオープンソースデータセットを作成することです。
最初の調査の後、OpentHoughts2-1MデータセットはOpenthinker2-32bにつながりました。これは、エイアイムやLiveCodebenchなどの標準的な推論ベンチマークでDeepSeek-R1-Distill-32Bを一致させるために公開された推論データで訓練された最初のモデルです。
次に、データ生成パイプラインの各ステップを1,000以上の制御実験で体系的に調査することにより、データセットをさらに改善し、それがOpentHoughts3につながりました。
パイプラインを1.2mの例にスケーリングし、教師としてQWQ-32Bを使用すると、Openthinker3-7Bモデルが得られます。これは、AIME 2025で53%、LiveCodebench 06/24-01/25で51%、GPQA径で54%を達成します。
すべてのデータセットとモデルは、https://openthoughts.aiで入手できます。

要約(オリジナル)

Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond. All of our datasets and models are available on https://openthoughts.ai.

arxiv情報

著者 Etash Guha,Ryan Marten,Sedrick Keh,Negin Raoof,Georgios Smyrnis,Hritik Bansal,Marianna Nezhurina,Jean Mercat,Trung Vu,Zayne Sprague,Ashima Suvarna,Benjamin Feuer,Liangyu Chen,Zaid Khan,Eric Frankel,Sachin Grover,Caroline Choi,Niklas Muennighoff,Shiye Su,Wanjia Zhao,John Yang,Shreyas Pimpalgaonkar,Kartik Sharma,Charlie Cheng-Jie Ji,Yichuan Deng,Sarah Pratt,Vivek Ramanujan,Jon Saad-Falcon,Jeffrey Li,Achal Dave,Alon Albalak,Kushal Arora,Blake Wulfe,Chinmay Hegde,Greg Durrett,Sewoong Oh,Mohit Bansal,Saadia Gabriel,Aditya Grover,Kai-Wei Chang,Vaishaal Shankar,Aaron Gokaslan,Mike A. Merrill,Tatsunori Hashimoto,Yejin Choi,Jenia Jitsev,Reinhard Heckel,Maheswaran Sathiamoorthy,Alexandros G. Dimakis,Ludwig Schmidt
発行日 2025-06-04 17:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | OpenThoughts: Data Recipes for Reasoning Models はコメントを受け付けていません

Coreset Selection via LLM-based Concept Bottlenecks

要約

Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを実現するトレーニングデータセットのサブセットを識別することを目的としています。
最先端のCSメソッドの多くは、最初にデータセット全体でダウンストリームモデルをトレーニングする必要があるスコアを使用してコアセットを選択し、トレーニング中にサンプルのモデルの動作を記録します(トレーニングダイナミクス)。
これらのスコアは、サンプルを一般的に学習するのが難しいのか、特定のダウンストリームモデルについて学習するのが困難であるかを示していないため、計算するのが非効率的で解釈が困難です。
私たちの仕事は、下流モデルとは無関係に人間に理解できないテキスト属性(概念)を使用してサンプルの難易度を計算するスコアを提案することにより、これらの課題に対処します。
具体的には、線形コンセプトボトルネックレイヤーをトレーニングし、それを使用してサンプルの難易度スコアを計算することにより、大規模な言語モデルを介して導出されたサンプルの視覚的特徴とコンセプトボトルネック間のアライメントを測定します。その後、このスコアに基づいて層状サンプリングを使用して、データセットのコアセットを生成します。
さまざまなダウンストリームモデル用のコアセットであり、非標識データセットでも計算可能です。
CIFAR-10/100およびImagenet-1Kの実験を通じて、コアセットはランダムサブセットを高くすることで、高剪定速度でもランダムなサブセットを上回り、トレーニングダイナミクスベースの方法で見つかったコアセットと同等以上のモデルパフォーマンスを実現することを示します。

要約(オリジナル)

Coreset Selection (CS) aims to identify a subset of the training dataset that achieves model performance comparable to using the entire dataset. Many state-of-the-art CS methods select coresets using scores whose computation requires training the downstream model on the entire dataset first and recording changes in the model’s behavior on samples as it trains (training dynamics). These scores are inefficient to compute and hard to interpret, as they do not indicate whether a sample is difficult to learn in general or only for a specific downstream model. Our work addresses these challenges by proposing a score that computes a sample’s difficulty using human-understandable textual attributes (concepts) independent of any downstream model. Specifically, we measure the alignment between a sample’s visual features and concept bottlenecks, derived via large language models, by training a linear concept bottleneck layer and computing the sample’s difficulty score using it.We then use stratified sampling based on this score to generate a coreset of the dataset.Crucially, our score is efficiently computable without training the downstream model on the full dataset even once, leads to high-performing coresets for various downstream models, and is computable even for an unlabeled dataset. Through experiments on CIFAR-10/100, and ImageNet-1K, we show that our coresets outperform random subsets, even at high pruning rates, and achieve model performance comparable to or better than coresets found by training dynamics-based methods.

arxiv情報

著者 Akshay Mehra,Trisha Mittal,Subhadra Gopalakrishnan,Joshua Kimball
発行日 2025-06-04 17:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Coreset Selection via LLM-based Concept Bottlenecks はコメントを受け付けていません

How to Use Graph Data in the Wild to Help Graph Anomaly Detection?

要約

近年、グラフの異常検出により、ソーシャル、財務、通信ネットワークなどのさまざまなドメインで広範なアプリケーションが見つかりました。
ただし、グラフ構造データの異常は、ラベルの希少性、不明確な異常、さまざまな異常タイプなど、監視または半監督の方法を信頼できないようにする独自の課題を提示します。
研究者は、異常が通常のデータ分布から大幅に逸脱すると仮定して、これらの課題に対処するために監視されていないアプローチを採用することがよくあります。
しかし、利用可能なデータが不十分な場合、正規分布を正確かつ包括的にキャプチャすることが困難になります。
この制限を克服するために、異常検出タスクを支援するために、外部グラフデータ(つまり、野生のグラフデータ)を利用することを提案します。
これは自然に疑問を提起します:外部データを使用して、異常検出タスクをグラフ化するのに役立つことができますか?
この質問に答えるために、Wild-Gadと呼ばれるフレームワークを提案します。
これは、統一されたデータベースであるUniWildGraphの上に構築されています。これは、広範かつ多様なグラフデータのコレクション、広範なドメインカバレッジ、十分なデータボリューム、統一された機能スペースを備えたグラフデータのコレクションで構成されています。
さらに、表現性と多様性に基づいて選択基準を開発し、異常検出タスクに最も適した外部データを特定します。
6つの現実世界のデータセットでの広範な実験は、野生GADの有効性を示しています。
ベースラインの方法と比較して、私たちのフレームワークは、ベストコンペティション方法よりも平均18%のAUCROCと32%のAUCPR改善があります。

要約(オリジナル)

In recent years, graph anomaly detection has found extensive applications in various domains such as social, financial, and communication networks. However, anomalies in graph-structured data present unique challenges, including label scarcity, ill-defined anomalies, and varying anomaly types, making supervised or semi-supervised methods unreliable. Researchers often adopt unsupervised approaches to address these challenges, assuming that anomalies deviate significantly from the normal data distribution. Yet, when the available data is insufficient, capturing the normal distribution accurately and comprehensively becomes difficult. To overcome this limitation, we propose to utilize external graph data (i.e., graph data in the wild) to help anomaly detection tasks. This naturally raises the question: How can we use external data to help graph anomaly detection tasks? To answer this question, we propose a framework called Wild-GAD. It is built upon a unified database, UniWildGraph, which comprises a large and diverse collection of graph data with broad domain coverage, ample data volume, and a unified feature space. Further, we develop selection criteria based on representativity and diversity to identify the most suitable external data for anomaly detection task. Extensive experiments on six real-world datasets demonstrate the effectiveness of Wild-GAD. Compared to the baseline methods, our framework has an average 18% AUCROC and 32% AUCPR improvement over the best-competing methods.

arxiv情報

著者 Yuxuan Cao,Jiarong Xu,Chen Zhao,Jiaan Wang,Carl Yang,Chunping Wang,Yang Yang
発行日 2025-06-04 17:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | How to Use Graph Data in the Wild to Help Graph Anomaly Detection? はコメントを受け付けていません