Are all models wrong? Fundamental limits in distribution-free empirical model falsification

要約

統計と機械学習では、利用可能なデータで適合モデルをトレーニングするとき、通常、少なくとも1つの正確なモデルを含むモデルクラス内で検索していることを確認する必要があります。つまり、上限を確保したいと思います。
モデルクラスのリスク(クラスの任意のモデルで達成できる可能性が最も低いリスク)。
ただし、たとえば、モデルクラスのリスクに下限を確立することも興味深いので、適合モデルがクラス内で少なくともほぼ最適かどうか、またはモデルクラスが不適切であるかどうかを判断できるようにすることも興味深いです。
手元の特定のタスクの場合。
特に、機械学習モデルがトレーニングデータでゼロエラーに達するようにトレーニングされている補間学習の設定では、少なくともモデルクラスのリスクの正の下限が可能かどうか、または私たちはできないかどうかを尋ねるかもしれません。
「すべてのモデルが間違っている」ことを検出しますか?
この作業では、モデルクラスで達成可能な最良のテストエラーで下限を構築する問題のためにモデルに依存しない基本的な硬度の結果を確立することにより、これらの質問に分布のない設定で答え、特定のモデルへの影響を調べます
ツリーベースの方法や線形回帰などのクラス。

要約(オリジナル)

In statistics and machine learning, when we train a fitted model on available data, we typically want to ensure that we are searching within a model class that contains at least one accurate model — that is, we would like to ensure an upper bound on the model class risk (the lowest possible risk that can be attained by any model in the class). However, it is also of interest to establish lower bounds on the model class risk, for instance so that we can determine whether our fitted model is at least approximately optimal within the class, or, so that we can decide whether the model class is unsuitable for the particular task at hand. Particularly in the setting of interpolation learning where machine learning models are trained to reach zero error on the training data, we might ask if, at the very least, a positive lower bound on the model class risk is possible — or are we unable to detect that ‘all models are wrong’? In this work, we answer these questions in a distribution-free setting by establishing a model-agnostic, fundamental hardness result for the problem of constructing a lower bound on the best test error achievable over a model class, and examine its implications on specific model classes such as tree-based methods and linear regression.

arxiv情報

著者 Manuel M. Müller,Yuetian Luo,Rina Foygel Barber
発行日 2025-02-10 18:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Are all models wrong? Fundamental limits in distribution-free empirical model falsification はコメントを受け付けていません

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

要約

近年、マスクされた拡散モデル(MDM)は、離散ドメイン上の生成モデリングのための有望な代替アプローチとして浮上しています。
自己回帰モデル(ARMS)と比較して、MDMSは、推論時に柔軟性でトレーニング時間に複雑さをトレードオフします。
トレーニング時には、指数関数的に多数の充填問題を解決することを学ばなければなりませんが、推論時には、本質的に任意の順序でトークンをデコードできます。
この作業では、これら2つの競合効果を詳しく調べます。
トレーニングの面では、理論的および経験的に、MDMが実際に自己回帰の対応物と比較して計算的に扱いやすいサブ問題について訓練することを実証します。
推論の面では、トークンデコード順序を適応的に選択するための適切な戦略により、MDMSの機能が大幅に向上し、ハードサブ問題を回避できることが示されます。
Sudokuのようなロジックパズルでは、適応前の推論が、前処理されたMDMSの精度を$ 7 $%から$ \約90 $%に解くことができることを示しています。
デコードの適切な順序を学習することを強制します。

要約(オリジナル)

In recent years, masked diffusion models (MDMs) have emerged as a promising alternative approach for generative modeling over discrete domains. Compared to autoregressive models (ARMs), MDMs trade off complexity at training time with flexibility at inference time. At training time, they must learn to solve an exponentially large number of infilling problems, but at inference time, they can decode tokens in essentially arbitrary order. In this work, we closely examine these two competing effects. On the training front, we theoretically and empirically demonstrate that MDMs indeed train on computationally intractable subproblems compared to their autoregressive counterparts. On the inference front, we show that a suitable strategy for adaptively choosing the token decoding order significantly enhances the capabilities of MDMs, allowing them to sidestep hard subproblems. On logic puzzles like Sudoku, we show that adaptive inference can boost solving accuracy in pretrained MDMs from $<7$% to $\approx 90$%, even outperforming ARMs with $7\times$ as many parameters and that were explicitly trained via teacher forcing to learn the right order of decoding.

arxiv情報

著者 Jaeyeon Kim,Kulin Shah,Vasilis Kontonis,Sham Kakade,Sitan Chen
発行日 2025-02-10 18:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions はコメントを受け付けていません

Unsupervised Particle Tracking with Neuromorphic Computing

要約

スパイク時間依存の可塑性ルールを使用して、遅延とシナプス重みの監視されていない学習を介して、荷電粒子の軌跡を識別するためのニューラルネットワークアーキテクチャの適用を研究します。
考慮されたモデルでは、ニューロンは、コンパクトミューンソレノイドフェーズII検出器のジオメトリに従ってモデル化された、粒子コリダーの追跡検出器での粒子ヒットの位置に関する時間エンコード情報を受け取ります。
スパイクニューラルネットワークが、偶発的または組み合わせヒットからの目立つノイズの存在下で、帯電した粒子によって残された信号を完全に監視していない方法でどのように正常に識別できるかを示します。
これらの結果は、粒子追跡に神経型コンピューティングを適用する方法を開き、将来の高エネルギー物理学実験におけるリアルタイムの低電力粒子追跡の可能性についてさらなる研究を動機付けます。

要約(オリジナル)

We study the application of a neural network architecture for identifying charged particle trajectories via unsupervised learning of delays and synaptic weights using a spike-time-dependent plasticity rule. In the considered model, the neurons receive time-encoded information on the position of particle hits in a tracking detector for a particle collider, modeled according to the geometry of the Compact Muon Solenoid Phase II detector. We show how a spiking neural network is capable of successfully identifying in a completely unsupervised way the signal left by charged particles in the presence of conspicuous noise from accidental or combinatorial hits. These results open the way to applications of neuromorphic computing to particle tracking, motivating further studies into its potential for real-time, low-power particle tracking in future high-energy physics experiments.

arxiv情報

著者 Emanuele Coradin,Fabio Cufino,Muhammad Awais,Tommaso Dorigo,Enrico Lupi,Eleonora Porcu,Jinu Raj,Fredrik Sandin,Mia Tosi
発行日 2025-02-10 18:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG, cs.NE, hep-ex, I.2 | Unsupervised Particle Tracking with Neuromorphic Computing はコメントを受け付けていません

ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection

要約

ニューラルネットワークがドメイン固有の制約に準拠することを保証することは、安全性と倫理的懸念に対処しながら予測精度を高めるために重要です。
ほとんどの現実世界のタスクの非線形性にもかかわらず、既存の方法は主にアフィンまたは凸の制約に限定されています。
非線形制約を正確に満たす予測を保証するニューラルネットワークアーキテクチャであるEnforceを紹介します。
Enforceは、標準の制約のないグラデーションベースのオプティマー(ADAMなど)でトレーニングされ、自己分化と局所的なニューラル予測を活用して、$ \ Mathcal {c}^1 $制約を任意の寛容$ \ epsilon $に施行します。
特定の問題と必要な許容レベルに合わせて複雑さを動的に調整する適応距離のあるニューラル投影(ADANP)モジュールを構築します。
Enforceは、最小(および調整可能な)計算コストで、ニューラルネットワークの出力と出力の両方で非線形の平等制約の満足度を保証します。

要約(オリジナル)

Ensuring neural networks adhere to domain-specific constraints is crucial for addressing safety and ethical concerns while also enhancing prediction accuracy. Despite the nonlinear nature of most real-world tasks, existing methods are predominantly limited to affine or convex constraints. We introduce ENFORCE, a neural network architecture that guarantees predictions to satisfy nonlinear constraints exactly. ENFORCE is trained with standard unconstrained gradient-based optimizers (e.g., Adam) and leverages autodifferentiation and local neural projections to enforce any $\mathcal{C}^1$ constraint to arbitrary tolerance $\epsilon$. We build an adaptive-depth neural projection (AdaNP) module that dynamically adjusts its complexity to suit the specific problem and the required tolerance levels. ENFORCE guarantees satisfaction of equality constraints that are nonlinear in both inputs and outputs of the neural network with minimal (and adjustable) computational cost.

arxiv情報

著者 Giacomo Lastrucci,Artur M. Schweidtmann
発行日 2025-02-10 18:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection はコメントを受け付けていません

When Witnesses Defend: A Witness Graph Topological Layer for Adversarial Graph Learning

要約

形状特性が摂動により堅牢であるという直感的な前提を活用すると、計算トポロジ、すなわちグラフの永続的な相同性表現からの新しいツールで敵対的なグラフ学習を橋渡しします。
グラフ上の敵対的な分析に証人複合体の概念を紹介します。これにより、最も重要なノードのサブセット(つまり、ランドマーク)のサブセットによって得られるグラフの顕著な形状特性にのみ焦点を合わせることができます。
グラフ全体。
残りのノードは証人として使用され、どの高次グラフ下部構造が学習プロセスに組み込まれるかを管理します。
証人のメカニズムを武装して、私たちは目撃者グラフトポロジーレイヤー(WGTL)を設計します。これは、ローカルおよびグローバルトポロジーグラフの両方の特徴表現を体系的に統合します。
攻撃者の予算を考えると、ローカルおよびグローバルトポロジの両方のエンコーディングの重要な安定性保証と、関連する堅牢なトポロジー損失を導き出します。
5つのGNNと3つの既存の非トポロジー防御メカニズムとの統合により、WGTLの汎用性と効率性を説明します。
6つのデータセットにわたる広範な実験は、WGTLがさまざまな摂動およびさまざまな敵対的な攻撃に対してGNNの堅牢性を高めることを示しています。
データセットとソースコードは、https://github.com/toggled/wgtlで入手できます。

要約(オリジナル)

Capitalizing on the intuitive premise that shape characteristics are more robust to perturbations, we bridge adversarial graph learning with the emerging tools from computational topology, namely, persistent homology representations of graphs. We introduce the concept of witness complex to adversarial analysis on graphs, which allows us to focus only on the salient shape characteristics of graphs, yielded by the subset of the most essential nodes (i.e., landmarks), with minimal loss of topological information on the whole graph. The remaining nodes are then used as witnesses, governing which higher-order graph substructures are incorporated into the learning process. Armed with the witness mechanism, we design Witness Graph Topological Layer (WGTL), which systematically integrates both local and global topological graph feature representations, the impact of which is, in turn, automatically controlled by the robust regularized topological loss. Given the attacker’s budget, we derive the important stability guarantees of both local and global topology encodings and the associated robust topological loss. We illustrate the versatility and efficiency of WGTL by its integration with five GNNs and three existing non-topological defense mechanisms. Our extensive experiments across six datasets demonstrate that WGTL boosts the robustness of GNNs across a range of perturbations and against a range of adversarial attacks. Our datasets and source codes are available at https://github.com/toggled/WGTL.

arxiv情報

著者 Naheed Anjum Arafat,Debabrota Basu,Yulia Gel,Yuzhou Chen
発行日 2025-02-10 18:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | When Witnesses Defend: A Witness Graph Topological Layer for Adversarial Graph Learning はコメントを受け付けていません

Enhancing Performance of Explainable AI Models with Constrained Concept Refinement

要約

精度と解釈可能性のトレードオフは、機械学習(ML)の挑戦でした。
この緊張は、信頼できる解釈可能性のためにMLアルゴリズムを再設計することを目的としているが、プロセスの正確さを犠牲にすることを目的とした、新たに解釈可能な設計方法で特に重要です。
この論文では、概念表現における逸脱の影響を調査することにより、このギャップに対処します。これは、解釈可能なモデルオン予測パフォーマンスの重要なコンポーネントであり、これらの効果を緩和するための新しいフレームワークを提案します。
フレームワークは、解釈可能性を維持する制約の下で概念の埋め込みを最適化するという原則に基づいて構築されます。
生成モデルをテストベッドとして使用して、私たちのアルゴリズムがゼロ損失を達成し、結果のモデルの解釈性を徐々に向上させることを厳密に証明します。
さらに、さまざまなベンチマークにわたる画像分類タスクの説明可能な予測を生成する際に、提案されたフレームワークの実用的なパフォーマンスを評価します。
既存の説明可能な方法と比較して、当社のアプローチは、さまざまな大規模なベンチマークでモデルの解釈可能性を維持しながら、予測の精度を向上させるだけでなく、計算コストが大幅に低いためにこれを達成します。

要約(オリジナル)

The trade-off between accuracy and interpretability has long been a challenge in machine learning (ML). This tension is particularly significant for emerging interpretable-by-design methods, which aim to redesign ML algorithms for trustworthy interpretability but often sacrifice accuracy in the process. In this paper, we address this gap by investigating the impact of deviations in concept representations-an essential component of interpretable models-on prediction performance and propose a novel framework to mitigate these effects. The framework builds on the principle of optimizing concept embeddings under constraints that preserve interpretability. Using a generative model as a test-bed, we rigorously prove that our algorithm achieves zero loss while progressively enhancing the interpretability of the resulting model. Additionally, we evaluate the practical performance of our proposed framework in generating explainable predictions for image classification tasks across various benchmarks. Compared to existing explainable methods, our approach not only improves prediction accuracy while preserving model interpretability across various large-scale benchmarks but also achieves this with significantly lower computational cost.

arxiv情報

著者 Geyu Liang,Senne Michielssen,Salar Fattahi
発行日 2025-02-10 18:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing Performance of Explainable AI Models with Constrained Concept Refinement はコメントを受け付けていません

Learning an Optimal Assortment Policy under Observational Data

要約

多項ロジット(MNL)モデルの下でオフラインの品揃え最適化の基本的な問題を研究します。ここでは、販売者は、歴史的な顧客選択データのみに基づいて提供する製品の最適なサブセットを決定する必要があります。
学習ベースの品揃えへのほとんどの既存のアプローチは、顧客との繰り返しのやり取りを通じて最適な品揃えのオンライン学習に焦点を当てていますが、そのような探査は多くの現実世界の設定で費用がかかるか、非実用的です。
この論文では、オフライン学習パラダイムを検討し、効率的なオフラインの品揃えの最適化のための最小限のデータ要件を調査します。
この目的のために、ランクブレークと悲観的な推定を組み合わせたアルゴリズムである悲観的なランクブレイク(PRB)を紹介します。
PRBは、タイトなサブ最適性の上限とほぼ一致する下限を確立することにより、ほぼ最適であることを証明します。
これはさらに、「最適なアイテムカバレッジ」 – 最適な品揃えの各アイテムが履歴データに十分に頻繁に表示されることが十分であり、効率的なオフライン学習に必要であることを示しています。
これは、データ内の完全な最適な品揃えを観察するという以前の要件を大幅に緩和します。
私たちの結果は、MNLモデルの下でのオフラインの品揃え最適化のデータ要件に関する基本的な洞察を提供します。

要約(オリジナル)

We study the fundamental problem of offline assortment optimization under the Multinomial Logit (MNL) model, where sellers must determine the optimal subset of the products to offer based solely on historical customer choice data. While most existing approaches to learning-based assortment optimization focus on the online learning of the optimal assortment through repeated interactions with customers, such exploration can be costly or even impractical in many real-world settings. In this paper, we consider the offline learning paradigm and investigate the minimal data requirements for efficient offline assortment optimization. To this end, we introduce Pessimistic Rank-Breaking (PRB), an algorithm that combines rank-breaking with pessimistic estimation. We prove that PRB is nearly minimax optimal by establishing the tight suboptimality upper bound and a nearly matching lower bound. This further shows that ‘optimal item coverage’ – where each item in the optimal assortment appears sufficiently often in the historical data – is both sufficient and necessary for efficient offline learning. This significantly relaxes the previous requirement of observing the complete optimal assortment in the data. Our results provide fundamental insights into the data requirements for offline assortment optimization under the MNL model.

arxiv情報

著者 Yuxuan Han,Han Zhong,Miao Lu,Jose Blanchet,Zhengyuan Zhou
発行日 2025-02-10 18:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ML, stat.TH | Learning an Optimal Assortment Policy under Observational Data はコメントを受け付けていません

DeepCrossAttention: Supercharging Transformer Residual Connections

要約

トランスネットワークは、多様なドメイン全体で顕著な成功を収めており、残留接続を含むさまざまな建築革新を活用しています。
ただし、以前のレイヤーの出力を単に合計する従来の残留接続は、重要な情報を希釈する可能性があります。
この作業では、トランスの残留学習を強化するアプローチであるDeepCrossattention(DCA)が導入されています。
DCAは、学習可能な入力依存の重みを使用して、レイヤー出力を動的に組み合わせて、モデルが以前のレイヤーのいずれかで最も関連性の高い情報に選択的に集中できるようにします。
さらに、DCAには深さごとの横断的な反対が組み込まれており、さまざまな深さの層間のより豊かな相互作用が可能になります。
私たちの言語モデリング実験は、DCAが特定のトレーニング時間の困惑を改善することを示しています。
さらに、DCAは、無視できる数のパラメーターを追加しながら、最大3倍高速な同じモデル品質を取得します。
理論分析により、DCAは、集団層の比率が周囲の次元の比率が重要なしきい値を下回ると、精度とモデルサイズの間の改善されたトレードオフを提供することを確認します。

要約(オリジナル)

Transformer networks have achieved remarkable success across diverse domains, leveraging a variety of architectural innovations, including residual connections. However, traditional residual connections, which simply sum the outputs of previous layers, can dilute crucial information. This work introduces DeepCrossAttention (DCA), an approach that enhances residual learning in transformers. DCA employs learnable, input-dependent weights to dynamically combine layer outputs, enabling the model to selectively focus on the most relevant information in any of the previous layers. Furthermore, DCA incorporates depth-wise cross-attention, allowing for richer interactions between layers at different depths. Our language modeling experiments show that DCA achieves improved perplexity for a given training time. Moreover, DCA obtains the same model quality up to 3x faster while adding a negligible number of parameters. Theoretical analysis confirms that DCA provides an improved trade-off between accuracy and model size when the ratio of collective layer ranks to the ambient dimension falls below a critical threshold.

arxiv情報

著者 Mike Heddes,Adel Javanmard,Kyriakos Axiotis,Gang Fu,MohammadHossein Bateni,Vahab Mirrokni
発行日 2025-02-10 18:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DeepCrossAttention: Supercharging Transformer Residual Connections はコメントを受け付けていません

KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment

要約

包括的かつ最新の知識グラフ(KG)を維持することは、最新のAIシステムにとって重要ですが、科学文献の急速な成長に合わせて手動のキュレーションは拡大するのに苦労しています。
このペーパーでは、非構造化されたテキストの構造化分析を通じてKG濃縮を自動化するために、マルチエージェント大手言語モデル(LLMS)を採用した新しいフレームワークであるKarmaを紹介します。
私たちのアプローチでは、エンティティの発見、関係抽出、スキーマアライメント、および競合解決を繰り返し、ドメイン固有のスキーマを順守しながら既存のグラフ構造に統合する競合の解決にまたがる9つの共同エージェントを採用しています。
3つの異なるドメインからの1,200のPubMedの記事での実験は、知識グラフ濃縮におけるKarmaの有効性を示しています。最大38,230の新しいエンティティを特定しながら、83.1 \%LLM検証の正確性を達成し、多層評価を通じて18.6 \%増加する紛争を削減します。

要約(オリジナル)

Maintaining comprehensive and up-to-date knowledge graphs (KGs) is critical for modern AI systems, but manual curation struggles to scale with the rapid growth of scientific literature. This paper presents KARMA, a novel framework employing multi-agent large language models (LLMs) to automate KG enrichment through structured analysis of unstructured text. Our approach employs nine collaborative agents, spanning entity discovery, relation extraction, schema alignment, and conflict resolution that iteratively parse documents, verify extracted knowledge, and integrate it into existing graph structures while adhering to domain-specific schema. Experiments on 1,200 PubMed articles from three different domains demonstrate the effectiveness of KARMA in knowledge graph enrichment, with the identification of up to 38,230 new entities while achieving 83.1\% LLM-verified correctness and reducing conflict edges by 18.6\% through multi-layer assessments.

arxiv情報

著者 Yuxing Lu,Jinzhuo Wang
発行日 2025-02-10 13:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.DL | KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment はコメントを受け付けていません

Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection

要約

指導の微調整に関する最近の進歩により、明示的な推論ステップなどの大規模な言語モデルのさまざまなプロンプトテクニックの開発が生まれました。
ただし、手法の成功は、提供されたタスク、言語モデル、コンテキストなど、さまざまなパラメーターに依存します。
したがって、効果的なプロンプトを見つけることは、多くの場合、試行錯誤のプロセスです。
自動プロンプトへの既存のアプローチのほとんどは、テクニックの構成と入力への依存の代わりに個々のテクニックを最適化することを目的としています。
このギャップを埋めるために、特定の入力の最適なプロンプト構成アドホックを予測する適応プロンプトアプローチを提案します。
私たちは、意味の理解を必要とする非常にコンテキスト依存的なタスクである社会的バイアス検出にアプローチを適用します。
3つのデータセットで3つの大きな言語モデルで評価し、構成を個々のテクニックやその他のベースラインと比較します。
結果は、効果的な迅速な構成を見つけることの重要性を強調しています。
当社のアプローチは、高い検出パフォーマンスを堅牢に保証し、いくつかの設定で最適です。
さらに、他のタスクに関する最初の実験は、その一般化可能性をサポートしています。

要約(オリジナル)

Recent advances on instruction fine-tuning have led to the development of various prompting techniques for large language models, such as explicit reasoning steps. However, the success of techniques depends on various parameters, such as the task, language model, and context provided. Finding an effective prompt is, therefore, often a trial-and-error process. Most existing approaches to automatic prompting aim to optimize individual techniques instead of compositions of techniques and their dependence on the input. To fill this gap, we propose an adaptive prompting approach that predicts the optimal prompt composition ad-hoc for a given input. We apply our approach to social bias detection, a highly context-dependent task that requires semantic understanding. We evaluate it with three large language models on three datasets, comparing compositions to individual techniques and other baselines. The results underline the importance of finding an effective prompt composition. Our approach robustly ensures high detection performance, and is best in several settings. Moreover, first experiments on other tasks support its generalizability.

arxiv情報

著者 Maximilian Spliethöver,Tim Knebler,Fabian Fumagalli,Maximilian Muschalik,Barbara Hammer,Eyke Hüllermeier,Henning Wachsmuth
発行日 2025-02-10 14:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection はコメントを受け付けていません