Vecchia Gaussian Process Ensembles on Internal Representations of Deep Neural Networks

要約

回帰タスクの場合、標準のガウスプロセス(GPS)は自然な不確実性の定量化(UQ)を提供しますが、深いニューラルネットワーク(DNNS)は表現学習で優れています。
ニューラルネットワークの決定論的UQメソッドは、2つを組み合わせて正常に組み合わせており、ニューラルネットワークを通過する1つのパスのみが必要です。
ただし、現在の方法では、ネットワークトレーニングの変更を必要とし、特徴の崩壊に対処するために、一意の入力が同一の特徴ベクトルにマッピングされます。
別のソリューションであるディープベッキアアンサンブル(DVE)を提案します。これにより、決定論的なUQが機能崩壊の存在下で動作し、ネットワーク再トレーニングの必要性を否定できます。
DVEは、DNNの隠れ層出力に基づいて構築されたGPSのアンサンブルで構成されており、最寄りの条件独立性を活用するVecchia近似を介してスケーラビリティを達成します。
DVEは、前提条件のネットワークと互換性があり、低い計算オーバーヘッドが発生します。
いくつかのデータセットでDVEのユーティリティを実証し、提案された方法の内部仕組みを理解するために実験を実行します。

要約(オリジナル)

For regression tasks, standard Gaussian processes (GPs) provide natural uncertainty quantification (UQ), while deep neural networks (DNNs) excel at representation learning. Deterministic UQ methods for neural networks have successfully combined the two and require only a single pass through the neural network. However, current methods necessitate changes to network training to address feature collapse, where unique inputs map to identical feature vectors. We propose an alternative solution, the deep Vecchia ensemble (DVE), which allows deterministic UQ to work in the presence of feature collapse, negating the need for network retraining. DVE comprises an ensemble of GPs built on hidden-layer outputs of a DNN, achieving scalability via Vecchia approximations that leverage nearest-neighbor conditional independence. DVE is compatible with pretrained networks and incurs low computational overhead. We demonstrate DVE’s utility on several datasets and carry out experiments to understand the inner workings of the proposed method.

arxiv情報

著者 Felix Jimenez,Matthias Katzfuss
発行日 2025-03-14 16:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Vecchia Gaussian Process Ensembles on Internal Representations of Deep Neural Networks はコメントを受け付けていません

Model-Agnostic Knowledge Guided Correction for Improved Neural Surrogate Rollout

要約

物理システムの進化のモデリングは、科学と工学の多くのアプリケーションにとって重要です。
これらのシステムの進化は部分微分方程式(PDE)によって支配されているため、これらのシステムを高い精度で解決する多くの計算シミュレーションがあります。
ただし、これらのシミュレーションには高い計算コストが発生するため、大規模な分析に使用することは不可能です。
シミュレータに人気のある代替品は、データ駆動型の方法で訓練され、はるかに計算効率が高いニューラルネットワークの代理です。
ただし、これらのサロゲートモデルは、特にトレーニングデータの不足に直面した場合、自動網目上で使用した場合、高いロールアウトエラーに悩まされます。
既存の作業は、モデルの最適化に直接物理的な損失項を含めるか、計算シミュレーターをニューラルネットワークに「微分可能な層」として組み込むことにより、サロゲートロールアウトエラーを改善することを提案しています。
これらのアプローチには両方とも課題があり、身体的損失関数は、特にレガシーシミュレーターで、常に利用可能ではない勾配を必要とする、硬いPDEとシミュレーター層のゆっくりした収束に苦しんでいます。
補強学習(ハイパー)モデルを備えたハイブリッドPDE予測因子を提案します。モデル存在、RLベースのコスト認識モデルは、ニューラルの代理、RL決定モデル、および物理シミュレーター(勾配の有無にかかわらず)を組み合わせて、サロゲートロールアウトエラーを大幅に減らします。
分散内のロールアウトエラーを47%〜78%削減することに加えて、Hyperは、身体的状態の変化に適応し、騒音の腐敗に耐性のあるインテリジェントなポリシーを学習します。
https://github.com/scailab/hyperで利用可能なコード。

要約(オリジナル)

Modeling the evolution of physical systems is critical to many applications in science and engineering. As the evolution of these systems is governed by partial differential equations (PDEs), there are a number of computational simulations which resolve these systems with high accuracy. However, as these simulations incur high computational costs, they are infeasible to be employed for large-scale analysis. A popular alternative to simulators are neural network surrogates which are trained in a data-driven manner and are much more computationally efficient. However, these surrogate models suffer from high rollout error when used autoregressively, especially when confronted with training data paucity. Existing work proposes to improve surrogate rollout error by either including physical loss terms directly in the optimization of the model or incorporating computational simulators as `differentiable layers’ in the neural network. Both of these approaches have their challenges, with physical loss functions suffering from slow convergence for stiff PDEs and simulator layers requiring gradients which are not always available, especially in legacy simulators. We propose the Hybrid PDE Predictor with Reinforcement Learning (HyPER) model: a model-agnostic, RL based, cost-aware model which combines a neural surrogate, RL decision model, and a physics simulator (with or without gradients) to reduce surrogate rollout error significantly. In addition to reducing in-distribution rollout error by 47%-78%, HyPER learns an intelligent policy that is adaptable to changing physical conditions and resistant to noise corruption. Code available at https://github.com/scailab/HyPER.

arxiv情報

著者 Bharat Srikishan,Daniel O’Malley,Mohamed Mehana,Nicholas Lubbers,Nikhil Muralidhar
発行日 2025-03-14 17:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Model-Agnostic Knowledge Guided Correction for Improved Neural Surrogate Rollout はコメントを受け付けていません

A transfer learning framework for weak-to-strong generalization

要約

最新の大規模な言語モデル(LLM)アラインメント手法は人間のフィードバックに依存していますが、これらの手法がAligned LLMの機能を根本的に制限するかどうかは不明です。
特に、能力を低下させることなく(より弱い)人間のフィードバックを使用して、LLMを超人的能力に(より強力な)LLMを整列させることができるかどうかは不明です。
これは、弱い(より能力の低い)モデルからのフィードバックを使用して、より強力な(より能力のある)モデルをトレーニングするために、弱くて強力な一般化問題の例です。
事前に訓練されたLLMSから潜在的な知識を引き出すことにより、弱くて強い一般化が可能であることを証明します。
特に、弱いモデルから弱いモデルから強力な訓練を受けたモデルに潜在的な概念を転送したい転送学習問題として、弱い〜強力な一般化問題をキャストします。
素朴な微調整アプローチは基本的な制限に苦しんでいることを証明しますが、問題構造によって提案された代替の改良ベースのアプローチは、微調整の限界を克服することを証明します。
最後に、複数のLLMアライメントタスクにおける洗練アプローチの実用的な適用性を示します。

要約(オリジナル)

Modern large language model (LLM) alignment techniques rely on human feedback, but it is unclear whether these techniques fundamentally limit the capabilities of aligned LLMs. In particular, it is unknown if it is possible to align (stronger) LLMs with superhuman capabilities with (weaker) human feedback without degrading their capabilities. This is an instance of the weak-to-strong generalization problem: using feedback from a weaker (less capable) model to train a stronger (more capable) model. We prove that weak-to-strong generalization is possible by eliciting latent knowledge from pre-trained LLMs. In particular, we cast the weak-to-strong generalization problem as a transfer learning problem in which we wish to transfer a latent concept prior from a weak model to a strong pre-trained model. We prove that a naive fine-tuning approach suffers from fundamental limitations, but an alternative refinement-based approach suggested by the problem structure provably overcomes the limitations of fine-tuning. Finally, we demonstrate the practical applicability of the refinement approach in multiple LLM alignment tasks.

arxiv情報

著者 Seamus Somerstep,Felipe Maia Polo,Moulinath Banerjee,Ya’acov Ritov,Mikhail Yurochkin,Yuekai Sun
発行日 2025-03-14 17:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | A transfer learning framework for weak-to-strong generalization はコメントを受け付けていません

Power Spectrum Signatures of Graphs

要約

グラフ、ポイントクラウド、マニホールドのラプラシアン演算子に基づくポイントシグネチャは、グラフ、クラスタリング、および形状分析の機械学習で人気のあるツールになりました。
この作業では、新しいポイント署名、パワースペクトル署名、グラフ信号の四角グラフフーリエ変換として定義された$ \ mathbb {r} $の測定値を提案します。
導出されているラプラシアンの固有ベクトルとは異なり、パワースペクトルの署名はグラフ自動化の下で不変です。
Power Spectrumの署名は、Wassersteinメトリックに関する入力グラフの摂動の下で安定していることを示します。
インジケータ関数のクラスに適用される署名と、グラフの頂点の記述機能を生成するためのアプリケーションに焦点を当てます。
署名の実用的な価値を示すために、ポイントクラウドデータのジオメトリと対称性を特徴付けるいくつかのアプリケーションとグラフ回帰問題を紹介します。

要約(オリジナル)

Point signatures based on the Laplacian operators on graphs, point clouds, and manifolds have become popular tools in machine learning for graphs, clustering, and shape analysis. In this work, we propose a novel point signature, the power spectrum signature, a measure on $\mathbb{R}$ defined as the squared graph Fourier transform of a graph signal. Unlike eigenvectors of the Laplacian from which it is derived, the power spectrum signature is invariant under graph automorphisms. We show that the power spectrum signature is stable under perturbations of the input graph with respect to the Wasserstein metric. We focus on the signature applied to classes of indicator functions, and its applications to generating descriptive features for vertices of graphs. To demonstrate the practical value of our signature, we showcase several applications in characterizing geometry and symmetries in point cloud data, and graph regression problems.

arxiv情報

著者 Karamatou Yacoubou Djima,Ka Man Yim
発行日 2025-03-14 17:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, stat.ML | Power Spectrum Signatures of Graphs はコメントを受け付けていません

Enhanced Soups for Graph Neural Networks

要約

グラフニューラルネットワーク(GNN)は、多数の科学および高性能コンピューティング(HPC)アプリケーションで最先端のパフォーマンスを実証しています。
最近の研究では、「スープ」(組み合わせて)個別にトレーニングされたGNNSが単一のモデルに分類されると、推論中に計算コストとメモリコストを増加させることなくパフォーマンスを改善できることが示唆されています。
ただし、既存のスープアルゴリズムは、多くの場合、ゆっくりとメモリ集約的であり、スケーラビリティを制限します。
GNNSの学んだスープを紹介します。GNNSは、既存の方法と比較して時間と記憶のオーバーヘッドを大幅に削減するグラデーションデセントベースのスープ戦略です。
私たちのアプローチは、複数のオープングラフベンチマーク(OGB)データセットとGNNアーキテクチャで評価され、最大1.2%の精度改善と2.1倍のスピードアップを達成します。
さらに、メモリの使用量を大幅に削減する学んだスープの新しいパーティションベースのバリアントであるパー​​ティション学習スープを提案します。
グラフセージを備えたOGBN-Productsデータセットでは、パーティションで学んだスープは、精度を損なうことなく、24.5倍のスピードアップと76%のメモリ削減を実現します。

要約(オリジナル)

Graph Neural Networks (GNN) have demonstrated state-of-the-art performance in numerous scientific and high-performance computing (HPC) applications. Recent work suggests that ‘souping’ (combining) individually trained GNNs into a single model can improve performance without increasing compute and memory costs during inference. However, existing souping algorithms are often slow and memory-intensive, which limits their scalability. We introduce Learned Souping for GNNs, a gradient-descent-based souping strategy that substantially reduces time and memory overhead compared to existing methods. Our approach is evaluated across multiple Open Graph Benchmark (OGB) datasets and GNN architectures, achieving up to 1.2% accuracy improvement and 2.1X speedup. Additionally, we propose Partition Learned Souping, a novel partition-based variant of learned souping that significantly reduces memory usage. On the ogbn-products dataset with GraphSAGE, partition learned souping achieves a 24.5X speedup and a 76% memory reduction without compromising accuracy.

arxiv情報

著者 Joseph Zuber,Aishwarya Sarkar,Joseph Jennings,Ali Jannesari
発行日 2025-03-14 17:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhanced Soups for Graph Neural Networks はコメントを受け付けていません

From Denoising Score Matching to Langevin Sampling: A Fine-Grained Error Analysis in the Gaussian Setting

要約

個別のサンプルを介してのみアクセスできる未知の分布からのサンプリングは、生成AIの中核の根本的な問題です。
現在の最先端の方法は、最初にスコア関数(スムーズなログディストリビューションの勾配)を推定し、勾配ベースのサンプリングアルゴリズムを適用する2段階のプロセスに従います。
結果の分布の正確性は、初期サンプルの有限数による一般化エラー、スコアマッチングの誤差、およびサンプリングアルゴリズムによって導入された拡散誤差のいくつかの要因によって影響を受ける可能性があります。
この論文では、ランジュビン拡散サンプラーを使用して、ガウス分布からのシンプルで代表的な設定サンプリングでサンプリングプロセスを分析します。
パイプライン全体の複数のエラーソースから生じるワッサースタインサンプリングエラーのシャープな分析を提供します。
これにより、データ分布の異方性(そのパワースペクトルによってエンコード)が、ノイズ振幅、スコアマッチングと拡散の両方のステップサイズ、および初期サンプルの両方を含むエンドツーエンドサンプリング方法の重要なパラメーターと相互作用する方法を厳密に追跡できます。
特に、Wassersteinサンプリングエラーは、特定のカーネルがメソッドパラメーターに依存するデータパワースペクトルのカーネルタイプのノルムとして表現できることを示しています。
この結果は、ノイズ振幅をステップサイズの選択に適応させるなど、サンプリングの精度を最適化することに関与するトレードオフのさらなる分析の基盤を提供します。

要約(オリジナル)

Sampling from an unknown distribution, accessible only through discrete samples, is a fundamental problem at the core of generative AI. The current state-of-the-art methods follow a two-step process: first estimating the score function (the gradient of a smoothed log-distribution) and then applying a gradient-based sampling algorithm. The resulting distribution’s correctness can be impacted by several factors: the generalization error due to a finite number of initial samples, the error in score matching, and the diffusion error introduced by the sampling algorithm. In this paper, we analyze the sampling process in a simple yet representative setting-sampling from Gaussian distributions using a Langevin diffusion sampler. We provide a sharp analysis of the Wasserstein sampling error that arises from the multiple sources of error throughout the pipeline. This allows us to rigorously track how the anisotropy of the data distribution (encoded by its power spectrum) interacts with key parameters of the end-to-end sampling method, including the noise amplitude, the step sizes in both score matching and diffusion, and the number of initial samples. Notably, we show that the Wasserstein sampling error can be expressed as a kernel-type norm of the data power spectrum, where the specific kernel depends on the method parameters. This result provides a foundation for further analysis of the tradeoffs involved in optimizing sampling accuracy, such as adapting the noise amplitude to the choice of step sizes.

arxiv情報

著者 Samuel Hurault,Matthieu Terris,Thomas Moreau,Gabriel Peyré
発行日 2025-03-14 17:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, cs.LG, math.OC | From Denoising Score Matching to Langevin Sampling: A Fine-Grained Error Analysis in the Gaussian Setting はコメントを受け付けていません

Are Deep Speech Denoising Models Robust to Adversarial Noise?

要約

ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケーション全体で広く使用されています。
ただし、このホワイトペーパーでは、最近の4つのDNSモデルをそれぞれ、知覚できない敵対的なノイズを追加することにより、理解できない意味不明の出力に還元できることを示しています。
さらに、我々の結果は、ターゲット攻撃の短期的な妥当性を示しており、モデルに任意の発話を出力し、空中攻撃を出力する可能性があります。
これらの攻撃の成功はモデルと設定によって異なり、攻撃はモデル固有の場合(つまり、ホワイトボックスと非譲渡不可)、最も強くなるように見えますが、我々の結果はDNSシステムの実用的な対策に対する差し迫った必要性を強調しています。

要約(オリジナル)

Deep noise suppression (DNS) models enjoy widespread use throughout a variety of high-stakes speech applications. However, in this paper, we show that four recent DNS models can each be reduced to outputting unintelligible gibberish through the addition of imperceptible adversarial noise. Furthermore, our results show the near-term plausibility of targeted attacks, which could induce models to output arbitrary utterances, and over-the-air attacks. While the success of these attacks varies by model and setting, and attacks appear to be strongest when model-specific (i.e., white-box and non-transferable), our results highlight a pressing need for practical countermeasures in DNS systems.

arxiv情報

著者 Will Schwarzer,Philip S. Thomas,Andrea Fanelli,Xiaoyu Liu
発行日 2025-03-14 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Are Deep Speech Denoising Models Robust to Adversarial Noise? はコメントを受け付けていません

On the phase diagram of extensive-rank symmetric matrix denoising beyond rotational invariance

要約

マトリックスの脱化は、信号処理と機械学習の中心です。
推測するマトリックスが、その寸法に比例して成長するランクを持つ要因構造を持っている場合の統計分析は、回転的に不変である場合を除き、課題のままです。
この場合、回転不変推定器[1,2]と呼ばれる情報理論的限界と効率的なベイズ最適除去アルゴリズムが知られています。
この設定を超えて、いくつかの結果が見つかります。
その理由は、回転対称性の欠如によるマトリックスモデル(高エネルギー物理学に表示される)のために、モデルが通常のスピンシステムではなく、マトリックスモデル(高エネルギー物理学に現れる)ではなく、2つの間のハイブリッドです。
ここでは、信号が因数分解されたマトリックス$ xx^\ intercal $である場合、ベイジアンマトリックスの除去の理解に向けて進歩します。
モンテカルロシミュレーションは、回転不動産推定器を使用した除去がランダムマトリックス理論と同じ性質の普遍性の特性のためにベイズ最適であると分離する\ emphed {denoising-factorisation transition}の存在を示唆しています。
私たちは、誤り、つまり$ x $自体を推定することは、控除可能なあいまいさに至るまで可能になるのは移行を超えているだけだと主張します。
理論側では、最小平均二乗エラーと相互情報にアクセスするために、平均フィールドテクニックを解釈可能なマルチスケールファッションで組み合わせます。
興味深いことに、私たちの代替方法は、[3]のレプリカアプローチによって再現可能な方程式を生成します。
数値洞察を使用して、平均フィールド理論を正確に推測する位相図の部分を区切り、そうでない場合は普遍性を使用して修正します。
私たちの完全なAnsatzは、有限のサイズの効果を考慮すると、位相図全体の数字とよく一致します。

要約(オリジナル)

Matrix denoising is central to signal processing and machine learning. Its statistical analysis when the matrix to infer has a factorised structure with a rank growing proportionally to its dimension remains a challenge, except when it is rotationally invariant. In this case the information theoretic limits and an efficient Bayes-optimal denoising algorithm, called rotational invariant estimator [1,2], are known. Beyond this setting few results can be found. The reason is that the model is not a usual spin system because of the growing rank dimension, nor a matrix model (as appearing in high-energy physics) due to the lack of rotation symmetry, but rather a hybrid between the two. Here we make progress towards the understanding of Bayesian matrix denoising when the signal is a factored matrix $XX^\intercal$ that is not rotationally invariant. Monte Carlo simulations suggest the existence of a \emph{denoising-factorisation transition} separating a phase where denoising using the rotational invariant estimator remains Bayes-optimal due to universality properties of the same nature as in random matrix theory, from one where universality breaks down and better denoising is possible, though algorithmically hard. We argue that it is only beyond the transition that factorisation, i.e., estimating $X$ itself, becomes possible up to irresolvable ambiguities. On the theory side, we combine mean-field techniques in an interpretable multiscale fashion in order to access the minimum mean-square error and mutual information. Interestingly, our alternative method yields equations reproducible by the replica approach of [3]. Using numerical insights, we delimit the portion of phase diagram where we conjecture the mean-field theory to be exact, and correct it using universality when it is not. Our complete ansatz matches well the numerics in the whole phase diagram when considering finite size effects.

arxiv情報

著者 Jean Barbier,Francesco Camilli,Justin Ko,Koki Okajima
発行日 2025-03-14 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.IT, cs.LG, math.IT | On the phase diagram of extensive-rank symmetric matrix denoising beyond rotational invariance はコメントを受け付けていません

Machine learning-based identification of Gaia astrometric exoplanet orbits

要約

3番目のGAIAデータリリース(DR3)には、$ \ sim $ 170 \、000の宇宙式軌道ソリューションが含まれています。
これらのシステムのコンポーネント質量、特に外惑星をホストする星の決定は、通常、天体測定に加えて相補的な観測を組み込むことにかかっています。
分光法と放射状の速度。
この方法では、エキスプラネット、茶色帯、星、および黒穴成分を備えたいくつかのGaia DR3 2体システムが確認されています。
外惑星と茶色の隣接仲間に最適な候補者を特定することを目的として、Gaia DR3軌道溶液のみを使用する代替機械学習アプローチを開発しました。
文献で確認された実質団体に基づいて、極端な勾配ブーストおよびランダムフォレスト分類器と組み合わせて、半監視された異常検出方法を使用して、非シングル源の集団の低質量外れ値を決定します。
私たちは、この方法の妥当性を調査するために特徴の重要性を採用し、研究し、2人がエクソプラネット候補であり、さらに5人が非常に穏やかな茶色の小人または非常に低い大量星である20人の最高の候補者のリストを作成しました。
1つの初期外惑星候補を含む3人の候補者は、長周期のバイナリ星の動きに偏った短い期間軌道を装備した偽陽性の解に対応しています。
優先的なフォローアップのために、茶色の隣接する仲間を持つ9人の候補者を強調しています。
太陽のような星g \、15-6の周りのコンパニオンは、外部放射状速度データを使用して本物の茶色の小人として確認できます。
この新しいアプローチは、ガイアの星状軌道の間でのsubsertellarコンパニオンの従来の識別方法を強力に補完するものです。
これは、Gaia DR4とその予想される外惑星発見の利回りのコンテキストで特に関連しています。

要約(オリジナル)

The third Gaia data release (DR3) contains $\sim$170\,000 astrometric orbit solutions of two-body systems located within $\sim$500 pc of the Sun. Determining component masses in these systems, in particular of stars hosting exoplanets, usually hinges on incorporating complementary observations in addition to the astrometry, e.g. spectroscopy and radial velocities. Several Gaia DR3 two-body systems with exoplanet, brown-dwarf, stellar, and black-hole components have been confirmed in this way. We developed an alternative machine learning approach that uses only the Gaia DR3 orbital solutions with the aim of identifying the best candidates for exoplanets and brown-dwarf companions. Based on confirmed substellar companions in the literature, we use semi-supervised anomaly detection methods in combination with extreme gradient boosting and random forest classifiers to determine likely low-mass outliers in the population of non-single sources. We employ and study feature importance to investigate the method’s plausibility and produced a list of 20 best candidates of which two are exoplanet candidates and another five are either very-massive brown dwarfs or very-low mass stars. Three candidates, including one initial exoplanet candidate, correspond to false-positive solutions where longer-period binary star motion was fitted with a biased shorter-period orbit. We highlight nine candidates with brown-dwarf companions for preferential follow-up. The companion around the Sun-like star G\,15-6 could be confirmed as a genuine brown dwarf using external radial-velocity data. This new approach is a powerful complement to the traditional identification methods for substellar companions among Gaia astrometric orbits. It is particularly relevant in the context of Gaia DR4 and its expected exoplanet discovery yield.

arxiv情報

著者 Johannes Sahlmann,Pablo Gómez
発行日 2025-03-14 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, astro-ph.IM, astro-ph.SR, cs.LG | Machine learning-based identification of Gaia astrometric exoplanet orbits はコメントを受け付けていません

CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency

要約

チェーンの思考(COT)などのチェーンベースの推論方法は、大規模な言語モデル(LLM)の推論タスクを解決する上で上昇する役割を果たします。
ただし、\ textit {a septing of reconging}と\ textit {対応する状態遷移}の間の因果的幻想は、特に長距離推論タスクにおいて、LLMの推論能力を進めるための重要な障害になりつつあります。
このペーパーでは、因果的意義と一貫性を同時に考慮するための非鎖ベースの推論フレームワーク、つまり因果的意義と一貫性エンハンサー(CSCE)を提案します。
治療効果評価を利用してLLMの損失関数をカスタマイズして、因果的意義と一貫性という2つの側面から推論能力を高めます。
これにより、モデルが本質的な因果関係をキャプチャし、さまざまなシナリオで堅牢で一貫したパフォーマンスを維持することが保証されます。
さらに、推論プロセスを、COTなどのチェーンベースの方法で一般的に使用される複数の1段階の推論から、1回で推論プロセス全体を出力する因果関係のある方法に変換し、モデルの推論効率をさらに改善します。
広範な実験は、私たちの方法が推論の成功率と速度の両方を改善することを示しています。
これらの改善により、非鎖ベースの方法は、LLMSが推論タスクの完了にも役立つことを示しています。

要約(オリジナル)

Chain-based reasoning methods like chain of thought (CoT) play a rising role in solving reasoning tasks for large language models (LLMs). However, the causal illusions between \textit{a step of reasoning} and \textit{corresponding state transitions} are becoming a significant obstacle to advancing LLMs’ reasoning capabilities, especially in long-range reasoning tasks. This paper proposes a non-chain-based reasoning framework for simultaneous consideration of causal significance and consistency, i.e., the Causal Significance and Consistency Enhancer (CSCE). We customize LLM’s loss function utilizing treatment effect assessments to enhance its reasoning ability from two aspects: causal significance and consistency. This ensures that the model captures essential causal relationships and maintains robust and consistent performance across various scenarios. Additionally, we transform the reasoning process from the cascading multiple one-step reasoning commonly used in Chain-Based methods, like CoT, to a causal-enhanced method that outputs the entire reasoning process in one go, further improving the model’s reasoning efficiency. Extensive experiments show that our method improves both the reasoning success rate and speed. These improvements further demonstrate that non-chain-based methods can also aid LLMs in completing reasoning tasks.

arxiv情報

著者 Kangsheng Wang,Xiao Zhang,Zizheng Guo,Tianyu Hu,Huimin Ma
発行日 2025-03-14 08:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency はコメントを受け付けていません