Exploring the Potential of QEEGNet for Cross-Task and Cross-Dataset Electroencephalography Encoding with Quantum Machine Learning

要約

脳波(EEG)は、脳活動を分析するための神経科学と臨床研究で広く使用されています。
EEGNETなどの深い学習モデルは、EEGシグナルのデコードに成功していることを示していますが、データの複雑さ、被験者間の変動性、ノイズの堅牢性に苦労することがよくあります。
量子機械学習(QML)の最近の進歩は、Quantum Computingのユニークな特性を活用することにより、EEG分析を強化する新しい機会を提供します。
この研究では、量子層をEEGNETに組み込んだハイブリッドニューラルネットワークであるQuantum-Eegnet(QEEGNET)をEEGNETに組み込み、複数のEEGデータセット全体でその一般化能力を調査します。
私たちの評価は、さまざまな学習シナリオでのQEEGNETのパフォーマンスを評価し、認知および運動タスクデータセットの多様なセットに及びます。
実験結果は、Qeegnetが競争力のあるパフォーマンスを実証し、特定のデータセットの堅牢性を維持する一方で、従来の深い学習方法に対するその改善は矛盾していることを明らかにしています。
これらの発見は、ハイブリッド量子クラシックアーキテクチャが、EEG処理の量子利点を完全に活用するためにさらに最適化する必要があることを示唆しています。
これらの制限にもかかわらず、私たちの研究は、EEG研究におけるQMLの適用性に関する新しい洞察を提供し、将来の進歩のために対処しなければならない課題を強調しています。

要約(オリジナル)

Electroencephalography (EEG) is widely used in neuroscience and clinical research for analyzing brain activity. While deep learning models such as EEGNet have shown success in decoding EEG signals, they often struggle with data complexity, inter-subject variability, and noise robustness. Recent advancements in quantum machine learning (QML) offer new opportunities to enhance EEG analysis by leveraging quantum computing’s unique properties. In this study, we extend the previously proposed Quantum-EEGNet (QEEGNet), a hybrid neural network incorporating quantum layers into EEGNet, to investigate its generalization ability across multiple EEG datasets. Our evaluation spans a diverse set of cognitive and motor task datasets, assessing QEEGNet’s performance in different learning scenarios. Experimental results reveal that while QEEGNet demonstrates competitive performance and maintains robustness in certain datasets, its improvements over traditional deep learning methods remain inconsistent. These findings suggest that hybrid quantum-classical architectures require further optimization to fully leverage quantum advantages in EEG processing. Despite these limitations, our study provides new insights into the applicability of QML in EEG research and highlights challenges that must be addressed for future advancements.

arxiv情報

著者 Chi-Sheng Chen,Samuel Yen-Chi Chen,Huan-Hsin Tseng
発行日 2025-03-04 17:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC, quant-ph | Exploring the Potential of QEEGNet for Cross-Task and Cross-Dataset Electroencephalography Encoding with Quantum Machine Learning はコメントを受け付けていません

Meta-Learning to Explore via Memory Density Feedback

要約

補強学習のための探査アルゴリズムは、通常、エージェントが環境の以前に見えなかった状態を求めるように訓練する追加の「本質的な」報酬で報酬関数を置き換えたり、増強したりします。
ここでは、メタラーニングを悪用したり、学習を学んだりする探索アルゴリズムを検討します。エージェントは、トレーニングの時代の間でさえ、単一のエピソード内での探査の進行を最大化することを学びます。
エージェントは、すべての記憶に関して新しい観測の確率密度を最小限に抑えることを目的とするポリシーを学びます。
さらに、現在の観測密度のフィードバック評価として受信し、再発ネットワークでそのフィードバックを保持します。
密度の軌跡を思い出すことにより、エージェントは、リアルタイムで複雑で成長している親しみやすさの景観をナビゲートすることを学び、そのポリシーが訓練されていない環境の完全に新しい状態でも、探査の進行を最大化できるようにします。

要約(オリジナル)

Exploration algorithms for reinforcement learning typically replace or augment the reward function with an additional “intrinsic” reward that trains the agent to seek previously unseen states of the environment. Here, we consider an exploration algorithm that exploits meta-learning, or learning to learn, such that the agent learns to maximize its exploration progress within a single episode, even between epochs of training. The agent learns a policy that aims to minimize the probability density of new observations with respect to all of its memories. In addition, it receives as feedback evaluations of the current observation density and retains that feedback in a recurrent network. By remembering trajectories of density, the agent learns to navigate a complex and growing landscape of familiarity in real-time, allowing it to maximize its exploration progress even in completely novel states of the environment for which its policy has not been trained.

arxiv情報

著者 Kevin L. McKee
発行日 2025-03-04 17:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Meta-Learning to Explore via Memory Density Feedback はコメントを受け付けていません

Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games

要約

後悔の$^+$(rm $^+$)に基づいて、2プレイヤーゼロサムゲームを解くためのアルゴリズムの最後の対象収束特性を研究します。
実際のゲームを解決するための広範な使用にもかかわらず、彼らの最後の収束については事実上何も知られていません。
RMタイプのダイナミクスを分析するための主要な障害は、後悔のオペレーターがリプシッツネスと(擬似)単調性を欠いていることです。
まず、RM $^+$、Predictive Rm $^+$、交互のRm $^+$など、実際に使用されるいくつかのバリアントが、すべての$ 3 \ Times 3 $ MATRIXゲームでも最後の項目の収束を保証することを数値的に示すことから始めます。
次に、スムージング技術、外程度のrm $^{+} $およびスムーズな予測rm $^+$に基づいて、これらのアルゴリズムの最近のバリエーションが、漸近的な最終的な収束を(レートなし)、$ 1/\ sqrt {t} $ best-sterate convergence、およびbest-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-rate-convergenceをお楽しみください。
私たちの分析は、アルゴリズムの限界点の幾何学的構造の新しい特性評価に基づいており、最後の適合性収束に関するほとんどの文献からの大幅な逸脱を示しています。
私たちの分析は独立した関心があり、非モノトーン演算子に基づくアルゴリズムの最後の対象となる収束を研究するための新鮮な視点を提供すると考えています。

要約(オリジナル)

We study last-iterate convergence properties of algorithms for solving two-player zero-sum games based on Regret Matching$^+$ (RM$^+$). Despite their widespread use for solving real games, virtually nothing is known about their last-iterate convergence. A major obstacle to analyzing RM-type dynamics is that their regret operators lack Lipschitzness and (pseudo)monotonicity. We start by showing numerically that several variants used in practice, such as RM$^+$, predictive RM$^+$ and alternating RM$^+$, all lack last-iterate convergence guarantees even on a simple $3\times 3$ matrix game. We then prove that recent variants of these algorithms based on a smoothing technique, extragradient RM$^{+}$ and smooth Predictive RM$^+$, enjoy asymptotic last-iterate convergence (without a rate), $1/\sqrt{t}$ best-iterate convergence, and when combined with restarting, linear-rate last-iterate convergence. Our analysis builds on a new characterization of the geometric structure of the limit points of our algorithms, marking a significant departure from most of the literature on last-iterate convergence. We believe that our analysis may be of independent interest and offers a fresh perspective for studying last-iterate convergence in algorithms based on non-monotone operators.

arxiv情報

著者 Yang Cai,Gabriele Farina,Julien Grand-Clément,Christian Kroer,Chung-Wei Lee,Haipeng Luo,Weiqiang Zheng
発行日 2025-03-04 18:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG | Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games はコメントを受け付けていません

Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training

要約

ラベルのないデータが増え続ける利用可能性は、人工知能システムをトレーニングする機会と課題の両方を示しています。
自己学習学習(SSL)は、膨大な量の非標識データから意味のある表現を抽出するための強力なパラダイムとして浮上していますが、既存の方法は、以前に学習された知識を忘れることなく、実際のデータストリームの非定常的で非IID性質に適応するのに苦労しています。
最近の作品は、大規模な継続的なトレーニングのために繰り返しコサインアニーリングスケジュールを採用しています。
ただし、これらのスケジュール(1)は、再利用段階で本質的に忘れを引き起こし、(2)既存の連続SSLメソッドと体系的に比較されていません。
この作業では、広く使用されているコサインスケジュールを最近提案されている無限の学習率スケジュールと体系的に比較し、後者がより効果的な代替手段であると経験的に発見します。
多様な画像および言語データセットにわたる当社の広範な経験的評価は、無限の学習率スケジュールが、固定反復予算に制限されることなく、繰り返されるコサイン減衰と比較して、継続的なトレーニング前のパフォーマンスを一貫して強化することを示しています。
たとえば、小規模のMAE事前トレーニングセットアップでは、文献からいくつかの強力なベースラインよりも優れています。
次に、実験をより大きなMAE前訓練および自己回帰言語モデルのトレーニング前に拡大します。
我々の結果は、無限の学習率スケジュールが大規模に効果的なままであり、MAE前訓練とゼロショットLMベンチマークの両方でコサイン減衰を繰り返したことを超えていることを示しています。

要約(オリジナル)

The ever-growing availability of unlabeled data presents both opportunities and challenges for training artificial intelligence systems. While self-supervised learning (SSL) has emerged as a powerful paradigm for extracting meaningful representations from vast amounts of unlabeled data, existing methods still struggle to adapt to the non-stationary, non-IID nature of real-world data streams without forgetting previously learned knowledge. Recent works have adopted a repeated cosine annealing schedule for large-scale continual pre-training; however, these schedules (1) inherently cause forgetting during the re-warming phase and (2) have not been systematically compared to existing continual SSL methods. In this work, we systematically compare the widely used cosine schedule with the recently proposed infinite learning rate schedule and empirically find the latter to be a more effective alternative. Our extensive empirical evaluation across diverse image and language datasets demonstrates that the infinite learning rate schedule consistently enhances continual pre-training performance compared to a repeated cosine decay without being restricted to a fixed iteration budget. For instance, in a small-scale MAE pre-training setup, it outperforms several strong baselines from the literature. We then scale up our experiments to larger MAE pre-training and autoregressive language model pre-training. Our results show that the infinite learning rate schedule remains effective at scale, surpassing repeated cosine decay for both MAE pre-training and zero-shot LM benchmarks.

arxiv情報

著者 Paul Janson,Vaibhav Singh,Paria Mehrbod,Adam Ibrahim,Irina Rish,Eugene Belilovsky,Benjamin Thérien
発行日 2025-03-04 18:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Beyond Cosine Decay: On the effectiveness of Infinite Learning Rate Schedule for Continual Pre-training はコメントを受け付けていません

Data Distributional Properties As Inductive Bias for Systematic Generalization

要約

深いニューラルネットワーク(DNNS)は、系統的一般化(SG)で苦労しています。
いくつかの研究では、新しいアーキテクチャ、損失関数、またはトレーニング方法論の提案を通じてSGを促進する可能性を評価しています。
ただし、SGの促進におけるデータプロパティのトレーニングの役割に焦点を当てた研究はほとんどありません。
この作業では、マルチモーダル言語モデルのSG能力に対する誘導バイアスとして、特定のデータ分布プロパティの影響を調査します。
この目的のために、3つの異なる特性を研究します。
第一に、トレーニング分布の潜在的な特性がとる可能性のある値の増加としてインスタンス化されたデータの多様性。
第二に、トレーニング中に特定の入力で潜在因子の可能性のある値の数を確率的に制限することを確率的に制限します。
第三に、トレーニング中に特定の潜在因子がランダムに変更される潜在的な介入。
3つの要因すべてがSGを大幅に強化し、多様性が最も影響を受ける特性の精度の89%の絶対的な増加に寄与していることがわかります。
一連の実験を通じて、さまざまな仮説をテストして、これらの特性がSGを促進する理由を理解します。
最後に、トレーニング分布における潜在的属性間の正規化された相互情報(NMI)は、分散除外の一般化を強く予測していることがわかります。
低いNMIがSGを誘導するメカニズムは、表現のジオメトリにあることがわかります。
特に、NMIは、モデルの神経表現(すなわち、並列神経ベクターでコーディングされた入力特徴)に、類推による推論能力に関連する特性においてより並列性を誘導することがわかります。

要約(オリジナル)

Deep neural networks (DNNs) struggle at systematic generalization (SG). Several studies have evaluated the possibility to promote SG through the proposal of novel architectures, loss functions or training methodologies. Few studies, however, have focused on the role of training data properties in promoting SG. In this work, we investigate the impact of certain data distributional properties, as inductive biases for the SG ability of a multi-modal language model. To this end, we study three different properties. First, data diversity, instantiated as an increase in the possible values a latent property in the training distribution may take. Second, burstiness, where we probabilistically restrict the number of possible values of latent factors on particular inputs during training. Third, latent intervention, where a particular latent factor is altered randomly during training. We find that all three factors significantly enhance SG, with diversity contributing an 89% absolute increase in accuracy in the most affected property. Through a series of experiments, we test various hypotheses to understand why these properties promote SG. Finally, we find that Normalized Mutual Information (NMI) between latent attributes in the training distribution is strongly predictive of out-of-distribution generalization. We find that a mechanism by which lower NMI induces SG is in the geometry of representations. In particular, we find that NMI induces more parallelism in neural representations (i.e., input features coded in parallel neural vectors) of the model, a property related to the capacity of reasoning by analogy.

arxiv情報

著者 Felipe del Río,Alain Raymond-Sáez,Daniel Florea,Rodrigo Toro Icarte,Julio Hurtado,Cristián Buc Calderón,Álvaro Soto
発行日 2025-03-04 18:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Data Distributional Properties As Inductive Bias for Systematic Generalization はコメントを受け付けていません

Unsupervised Attributed Dynamic Network Embedding with Stability Guarantees

要約

動的ネットワーク埋め込みの安定性により、異なる時間に同じように動作するノードが同じ埋め込みを受信し、ネットワーク内のノードを時間をかけて比較できるようになります。
展開された隣接スペクトル埋め込み(auase)は、ノードが時変共変量情報で起因する動的ネットワークの安定した監視されていない表現学習フレームワークであると考えています。
安定性を確立するために、関連する潜在的位置モデルへの均一な収束を証明します。
3つの実際の属性ネットワークの最先端のネットワーク表現学習方法と比較することにより、動的埋め込みの利点を定量化します。
私たちの知る限り、auaseは、グラウンドトゥルースラベルを必要とせずに安定性保証を満たす唯一の属性の動的埋め込みです。これは、リンク予測とノード分類の大幅な改善を提供します。

要約(オリジナル)

Stability for dynamic network embeddings ensures that nodes behaving the same at different times receive the same embedding, allowing comparison of nodes in the network across time. We present attributed unfolded adjacency spectral embedding (AUASE), a stable unsupervised representation learning framework for dynamic networks in which nodes are attributed with time-varying covariate information. To establish stability, we prove uniform convergence to an associated latent position model. We quantify the benefits of our dynamic embedding by comparing with state-of-the-art network representation learning methods on three real attributed networks. To the best of our knowledge, AUASE is the only attributed dynamic embedding that satisfies stability guarantees without the need for ground truth labels, which we demonstrate provides significant improvements for link prediction and node classification.

arxiv情報

著者 Emma Ceccherini,Ian Gallagher,Andrew Jones,Daniel Lawson
発行日 2025-03-04 18:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Unsupervised Attributed Dynamic Network Embedding with Stability Guarantees はコメントを受け付けていません

Multiaccuracy and Multicalibration via Proxy Groups

要約

予測機械学習アルゴリズムの使用がハイステークスの意思決定で増加するにつれて、これらのアルゴリズムが機密グループ全体で公平であることが不可欠です。
残念ながら、現実世界のアプリケーションの公平性の測定と実施は、機密性の高いグループデータの欠落または不完全なグループのために困難な場合があります。
これらの設定では、パリティベースの公平性の概念のみでのみ、実用的かつ効果的な解決策として、プロキシに敏感な属性が提案されています。
マルチカーシーやマルチブランド化など、より新しい柔軟なフレームワークのための敏感なグループデータが欠落している場合、公平性を評価して制御する方法を知ることは未開拓のままです。
この作業では、敏感なグループデータがない場合、プロキシに敏感な属性を使用して、真のマルチカーシーとマルチカリブリの実用的な上限を導き出し、モデルの潜在的な最悪の場合の公平性違反に関する洞察を提供することを実証することにより、このギャップに対処します。
さらに、モデルを調整して、プロキシに敏感な属性全体でマルチカルチュラシーとマルチローブ化を満たすことが、これらの違反を真の、しかし未知の、敏感なグループに対して大幅に軽減できることを示しています。
実際のデータセットでのいくつかの実験を通じて、敏感なグループ情報が不完全または利用できない場合でも、近似マルチカーシーとマルチキャブラメントを達成できることを示しています。

要約(オリジナル)

As the use of predictive machine learning algorithms increases in high-stakes decision-making, it is imperative that these algorithms are fair across sensitive groups. Unfortunately, measuring and enforcing fairness in real-world applications can be challenging due to missing or incomplete sensitive group data. Proxy-sensitive attributes have been proposed as a practical and effective solution in these settings, but only for parity-based fairness notions. Knowing how to evaluate and control for fairness with missing sensitive group data for newer and more flexible frameworks, such as multiaccuracy and multicalibration, remains unexplored. In this work, we address this gap by demonstrating that in the absence of sensitive group data, proxy-sensitive attributes can provably be used to derive actionable upper bounds on the true multiaccuracy and multicalibration, providing insights into a model’s potential worst-case fairness violations. Additionally, we show that adjusting models to satisfy multiaccuracy and multicalibration across proxy-sensitive attributes can significantly mitigate these violations for the true, but unknown, sensitive groups. Through several experiments on real-world datasets, we illustrate that approximate multiaccuracy and multicalibration can be achieved even when sensitive group information is incomplete or unavailable.

arxiv情報

著者 Beepul Bharti,Mary Versa Clemens-Sewall,Paul H. Yi,Jeremias Sulam
発行日 2025-03-04 18:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Multiaccuracy and Multicalibration via Proxy Groups はコメントを受け付けていません

Optimization, Isoperimetric Inequalities, and Sampling via Lyapunov Potentials

要約

この論文では、すべての初期化からの勾配流を使用してfの最適化が、Gibbsのポアンカルの不等式が低温でMu_ {beta} = e^{ – \ beta f}/zのポアンカルの不等式を意味することを証明します。
特に、勾配流の収束速度に関する軽度の規則性の仮定の下で、Mu_ {beta}は、beta> = omega(d)の定数o(c ‘+1/beta)のポアンカル\’ e不等式を満たしていることを確立します。
Mu_ {beta}は、sがmu_ {beta}の2番目のモーメントを示す定数o(s beta c ‘)でlog-sobolevの不等式を満たします。
ここで、漸近表記はF依存パラメーターを隠します。
高レベルでは、これにより、すべての初期化からの勾配流を介した最適化が、低温ギブス測定のポアンカル\ ‘eとlog-sobolevの不等式を意味することを確立します。これは、すべての初期化からのサンプリングを意味します。
同様に、同じ仮定の下で、fをいくつかのセットsを除くすべての場所から初期化できる場合、Mu_ {beta}は、\ beta = omega(d)のパラメーター(c ‘、mu_ {beta}(s))を使用して弱いポアンカル\’ e不等式を満たすことを確立します。
高レベルでは、これは「ほとんどの」初期化からの最適化が弱いポアンカル\ ‘eの不等式を意味しますが、これは適切な温かいスタートからのサンプリングを意味します。
私たちの規則性の仮定は軽度であり、結果として、いくつかの新しい自然で興味深いクラスの非ログconcave密度から効率的にサンプリングできることを示しています。
別の結果として、LEHEC(2023)と同様に、滑らかさよりも滑らかさよりも穏やかな規則性条件を満たすログコンケーブ測定の効率的な離散時間サンプリング結果を取得します。

要約(オリジナル)

In this paper, we prove that optimizability of any F using Gradient Flow from all initializations implies a Poincar\’e Inequality for Gibbs measures mu_{beta} = e^{-\beta F}/Z at low temperature. In particular, under mild regularity assumptions on the convergence rate of Gradient Flow, we establish that mu_{beta} satisfies a Poincar\’e Inequality with constant O(C’+1/beta) for beta >= Omega(d), where C’ is the Poincar\’e constant of mu_{beta} restricted to a neighborhood of the global minimizers of F. Under an additional mild condition on F, we show that mu_{beta} satisfies a Log-Sobolev Inequality with constant O(S beta C’) where S denotes the second moment of mu_{beta}. Here asymptotic notation hides F-dependent parameters. At a high level, this establishes that optimizability via Gradient Flow from every initialization implies a Poincar\’e and Log-Sobolev Inequality for the low-temperature Gibbs measure, which in turn imply sampling from all initializations. Analogously, we establish that under the same assumptions, if F can be initialized from everywhere except some set S, then mu_{beta} satisfies a Weak Poincar\’e Inequality with parameters (C’, mu_{beta}(S)) for \beta = Omega(d). At a high level, this shows while optimizability from ‘most’ initializations implies a Weak Poincar\’e Inequality, which in turn implies sampling from suitable warm starts. Our regularity assumptions are mild and as a consequence, we show we can efficiently sample from several new natural and interesting classes of non-log-concave densities, an important setting with relatively few examples. As another corollary, we obtain efficient discrete-time sampling results for log-concave measures satisfying milder regularity conditions than smoothness, similar to Lehec (2023).

arxiv情報

著者 August Y. Chen,Karthik Sridharan
発行日 2025-03-04 18:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Optimization, Isoperimetric Inequalities, and Sampling via Lyapunov Potentials はコメントを受け付けていません

Weak-to-Strong Generalization Even in Random Feature Networks, Provably

要約

弱から強力な一般化(Burns et al。、2024)は、GPT-4によると、強力な生徒、たとえばGPT-2によると、GPT-2が弱い教師から課題を学び、教師を大幅に上回る現象です。
この現象は、GPT-4のような強力な学習者を必要としないことを示しています。
ランダムで固定された下層と訓練された最上層を備えた2層ネットワークによって記述されたランダムな特徴モデルである学生と教師を考慮します。
少数のユニット(つまり、ランダムな機能)を持つ「弱い」教師は、人口について訓練され、「ランダムな特徴)がはるかに多数のユニット(つまり、ランダムな機能)を持つ「強力な」生徒は、弱い教師によって生成されたラベルでのみトレーニングされます。
教師がラベルを付けたデータのみでのみ訓練されているにもかかわらず、生徒がどのように教師を上回ることができるかを実証、証明、および理解します。
また、早期停止によってこのような弱い〜強力な一般化がどのように可能になっているかを説明します。
重要なことに、このモデルでは、弱くて強力な一般化の定量的制限も示しています。

要約(オリジナル)

Weak-to-Strong Generalization (Burns et al., 2024) is the phenomenon whereby a strong student, say GPT-4, learns a task from a weak teacher, say GPT-2, and ends up significantly outperforming the teacher. We show that this phenomenon does not require a strong learner like GPT-4. We consider student and teacher that are random feature models, described by two-layer networks with a random and fixed bottom layer and a trained top layer. A ‘weak’ teacher, with a small number of units (i.e. random features), is trained on the population, and a ‘strong’ student, with a much larger number of units (i.e. random features), is trained only on labels generated by the weak teacher. We demonstrate, prove, and understand how the student can outperform the teacher, even though trained only on data labeled by the teacher. We also explain how such weak-to-strong generalization is enabled by early stopping. Importantly, we also show the quantitative limits of weak-to-strong generalization in this model.

arxiv情報

著者 Marko Medvedev,Kaifeng Lyu,Dingli Yu,Sanjeev Arora,Zhiyuan Li,Nathan Srebro
発行日 2025-03-04 18:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Weak-to-Strong Generalization Even in Random Feature Networks, Provably はコメントを受け付けていません

A New $\sim 5σ$ Tension at Characteristic Redshift from DESI DR1 and DES-SN5YR observations

要約

DESI-DR1 BAOおよびDES-SN5YRデータセットを使用して、マルチタスクガウスプロセス(MTGP)フレームワークを使用して、角直径距離($ D_ {A} $)のモデル非依存の再構築を実行します。
バリオンドラッグエポック$ r_d $のコモビングサウンドホライズンをPlanckのベストフィット値に校正し、初期の宇宙物理学との一貫性を確保します。
2つのキーレッドシフトで再構築された$ d_a $、$ z \ sim 1.63 $($ d_ {a}^{\ prime} = 0 $)および$ z \ sim 0.512 $($ d_ {a}^{\ prime} = d_ {a})
私たちの調査結果は、$ Z \ SIM 1.63 $で、$ H(Z)$がPlanck-2018 $ \ Lambda $ cdm予測と完全に一致しており、その赤方偏移で新しい物理学を確認していないことが明らかになりました。
ただし、$ z \ sim 0.512 $では、派生$ h(z)$は、planck-2018 $ \ lambda $ cdm予測と$ 5 \ sigma $の矛盾を示しており、この下位のレッドシフトでPlanck-2018によって制約されている$ \ lambda $ cdmモデルの故障の可能性を示唆しています。
既存の「ハッブルテンション」とは異なる$ z \ sim 0.512 $でのこの出現した$ \ sim 5 \ sigma $張力は、低赤方偏移での新しい物理学の最初の強力な証拠を示す可能性があります。

要約(オリジナル)

We perform a model-independent reconstruction of the angular diameter distance ($D_{A}$) using the Multi-Task Gaussian Process (MTGP) framework with DESI-DR1 BAO and DES-SN5YR datasets. We calibrate the comoving sound horizon at the baryon drag epoch $r_d$ to the Planck best-fit value, ensuring consistency with early-universe physics. With the reconstructed $D_A$ at two key redshifts, $z\sim 1.63$ (where $D_{A}^{\prime} =0$) and at $z\sim 0.512$ (where $D_{A}^{\prime} = D_{A}$), we derive the expansion rate of the Universe $H(z)$ at these redshifts. Our findings reveal that at $z\sim 1.63$, the $H(z)$ is fully consistent with the Planck-2018 $\Lambda$CDM prediction, confirming no new physics at that redshift. However, at $z \sim 0.512$, the derived $H(z)$ shows a more than $5\sigma$ discrepancy with the Planck-2018 $\Lambda$CDM prediction, suggesting a possible breakdown of the $\Lambda$CDM model as constrained by Planck-2018 at this lower redshift. This emerging $\sim 5\sigma$ tension at $z\sim 0.512$, distinct from the existing “Hubble Tension”, may signal the first strong evidence for new physics at low redshifts.

arxiv情報

著者 Purba Mukherjee,Anjan A Sen
発行日 2025-03-04 18:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, cs.LG, gr-qc, hep-th | A New $\sim 5σ$ Tension at Characteristic Redshift from DESI DR1 and DES-SN5YR observations はコメントを受け付けていません