On Barycenter Computation: Semi-Unbalanced Optimal Transport-based Method on Gaussians

要約

我々は、半不平衡最適輸送(SUOT)ベースの重心と呼ばれる$n$中心のガウス確率尺度間の重心問題の堅牢なバージョンを探索します。重心は固定されたままですが、カルバック・ライブラー発散を使用して他の重心は緩和されます。
私たちは、正確な測地線勾配降下法およびハイブリッド勾配降下法アルゴリズムと呼ばれる、ビュレス・ワッサーシュタイン多様体に関する最適化アルゴリズムを開発します。
正確な測地線勾配降下法は、ビュレス多様体の測地線に沿った重心の目的関数の一次導関数の正確な閉形式の計算に基づいていますが、ハイブリッド勾配降下法は、SUOT 問題を解くときにオプティマイザー コンポーネントを利用します。
リーマン勾配降下法を適用する前に、外れ値の測定値を置き換えます。
両方の方法の理論的な収束保証を確立し、正確な測地線勾配降下法アルゴリズムが次元フリーの収束率を達成することを実証します。
最後に、正常なワッサーシュタイン重心と私たちの重心を比較する実験を行い、アブレーション研究を行います。

要約(オリジナル)

We explore a robust version of the barycenter problem among $n$ centered Gaussian probability measures, termed Semi-Unbalanced Optimal Transport (SUOT)-based Barycenter, wherein the barycenter remains fixed while the others are relaxed using Kullback-Leibler divergence. We develop optimization algorithms on Bures-Wasserstein manifold, named the Exact Geodesic Gradient Descent and Hybrid Gradient Descent algorithms. While the Exact Geodesic Gradient Descent method is based on computing the exact closed form of the first-order derivative of the objective function of the barycenter along a geodesic on the Bures manifold, the Hybrid Gradient Descent method utilizes optimizer components when solving the SUOT problem to replace outlier measures before applying the Riemannian Gradient Descent. We establish the theoretical convergence guarantees for both methods and demonstrate that the Exact Geodesic Gradient Descent algorithm attains a dimension-free convergence rate. Finally, we conduct experiments to compare the normal Wasserstein Barycenter with ours and perform an ablation study.

arxiv情報

著者 Ngoc-Hai Nguyen,Dung Le,Hoang-Phi Nguyen,Tung Pham,Nhat Ho
発行日 2024-10-10 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, cs.LG, G.1.6 | On Barycenter Computation: Semi-Unbalanced Optimal Transport-based Method on Gaussians はコメントを受け付けていません

The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD

要約

我々は、最後の反復のみが解放され、中間の反復が非表示のままである設定における、ノイズを含むクリップされた確率的勾配降下法 (DP-SGD) の単純なヒューリスティック プライバシー分析を提案します。
つまり、私たちのヒューリスティックはモデルの線形構造を前提としています。
私たちは、ヒューリスティックがさまざまなトレーニング手順に適用されたプライバシー監査の結果を予測できることを実験的に示しています。
したがって、トレーニングの前に、最終的なプライバシー漏洩の大まかな推定値として使用できます。
また、プライバシー漏洩を過小評価するいくつかの人為的な反例を提供することで、ヒューリスティックの限界を調査します。
DP-SGD の標準的な構成ベースのプライバシー分析では、攻撃者がすべての中間反復にアクセスできることを事実上想定していますが、これは多くの場合非現実的です。
ただし、この分析は実際には依然として最先端です。
私たちのヒューリスティックは厳密なプライバシー分析に代わるものではありませんが、最良の理論上の上限とプライバシー監査の下限との間に大きなギャップがあることを示し、理論上のプライバシー分析を改善するためのさらなる作業の目標を設定します。
また、私たちは経験的にヒューリスティックをサポートしており、既存のプライバシー監査攻撃が視覚と言語の両方のタスクにおけるヒューリスティック分析によって制限されていることを示しています。

要約(オリジナル)

We propose a simple heuristic privacy analysis of noisy clipped stochastic gradient descent (DP-SGD) in the setting where only the last iterate is released and the intermediate iterates remain hidden. Namely, our heuristic assumes a linear structure for the model. We show experimentally that our heuristic is predictive of the outcome of privacy auditing applied to various training procedures. Thus it can be used prior to training as a rough estimate of the final privacy leakage. We also probe the limitations of our heuristic by providing some artificial counterexamples where it underestimates the privacy leakage. The standard composition-based privacy analysis of DP-SGD effectively assumes that the adversary has access to all intermediate iterates, which is often unrealistic. However, this analysis remains the state of the art in practice. While our heuristic does not replace a rigorous privacy analysis, it illustrates the large gap between the best theoretical upper bounds and the privacy auditing lower bounds and sets a target for further work to improve the theoretical privacy analyses. We also empirically support our heuristic and show existing privacy auditing attacks are bounded by our heuristic analysis in both vision and language tasks.

arxiv情報

著者 Thomas Steinke,Milad Nasr,Arun Ganesh,Borja Balle,Christopher A. Choquette-Choo,Matthew Jagielski,Jamie Hayes,Abhradeep Guha Thakurta,Adam Smith,Andreas Terzis
発行日 2024-10-10 17:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD はコメントを受け付けていません

Generalizing Stochastic Smoothing for Differentiation and Gradient Estimation

要約

アルゴリズム、演算子、シミュレーター、その他の微分不可能な関数の確率的微分可能緩和のための勾配推定の問題を扱います。
確率的平滑化は従来、完全なサポートを備えた微分可能な密度分布を持つ非微分可能関数の入力を摂動させ、それを平滑化し、勾配推定を可能にします。
私たちの理論は、微分可能な密度や完全なサポートを必要とせずに、仮定を減らして確率的平滑化を導出する第一原理から始まり、微分不可能なブラックボックス関数の緩和と勾配推定のための一般的なフレームワークを提示します $f:\mathbb{R}
^n\to\mathbb{R}^m$。
3 つの直交する観点から勾配推定のための分散削減を開発します。
経験的に、微分可能なソートとランキング、グラフ上の微分可能な最短経路、姿勢推定のための微分可能なレンダリング、微分可能なクライオ ET シミュレーションについて、6 つの分布と最大 24 の分散削減戦略をベンチマークします。

要約(オリジナル)

We deal with the problem of gradient estimation for stochastic differentiable relaxations of algorithms, operators, simulators, and other non-differentiable functions. Stochastic smoothing conventionally perturbs the input of a non-differentiable function with a differentiable density distribution with full support, smoothing it and enabling gradient estimation. Our theory starts at first principles to derive stochastic smoothing with reduced assumptions, without requiring a differentiable density nor full support, and we present a general framework for relaxation and gradient estimation of non-differentiable black-box functions $f:\mathbb{R}^n\to\mathbb{R}^m$. We develop variance reduction for gradient estimation from 3 orthogonal perspectives. Empirically, we benchmark 6 distributions and up to 24 variance reduction strategies for differentiable sorting and ranking, differentiable shortest-paths on graphs, differentiable rendering for pose estimation, as well as differentiable cryo-ET simulations.

arxiv情報

著者 Felix Petersen,Christian Borgelt,Aashwin Mishra,Stefano Ermon
発行日 2024-10-10 17:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Generalizing Stochastic Smoothing for Differentiation and Gradient Estimation はコメントを受け付けていません

Deconstructing equivariant representations in molecular systems

要約

最近の等変モデルは、化学的特性の予測だけでなく、分子や材料の動的シミュレーションの代用としても大きな進歩を示しています。
このカテゴリで最高のパフォーマンスを発揮するモデルの多くは、相互作用と変換を対称選択ルールで許可されるものに制限することで等分散性を維持するテンソル積のフレームワーク内で構築されています。
モデリング プロセスの中核部分であるにもかかわらず、これらの等変表現にどのような情報が保持されているか、およびベンチマーク メトリクス以外の一般的な動作を理解することにはまだあまり注目されていません。
この研究では、QM9 データセット上の単純な等変グラフ畳み込みモデルを使用した一連の実験について報告し、定量的パフォーマンスと結果として得られる分子グラフ埋め込みの相関関係に焦点を当てます。
私たちの重要な発見は、スカラー予測タスクの場合、既約表現の多く、特にベクトル ($l=1$) とテンソル量 ($l=2$) に関連する表現がトレーニング中に単に無視されることが問題であるということです。
それは必ずしもテスト指標で明らかになるわけではありません。
球面調和関数の未使用の次数をいくつか削除すると、潜在空間構造の改善と相関して、モデルのパフォーマンスが向上することが経験的に示されています。
これらの観察に基づいて、同等の特徴の効率と利用を改善するために、将来の実験のために多くの推奨事項を提供します。

要約(オリジナル)

Recent equivariant models have shown significant progress in not just chemical property prediction, but as surrogates for dynamical simulations of molecules and materials. Many of the top performing models in this category are built within the framework of tensor products, which preserves equivariance by restricting interactions and transformations to those that are allowed by symmetry selection rules. Despite being a core part of the modeling process, there has not yet been much attention into understanding what information persists in these equivariant representations, and their general behavior outside of benchmark metrics. In this work, we report on a set of experiments using a simple equivariant graph convolution model on the QM9 dataset, focusing on correlating quantitative performance with the resulting molecular graph embeddings. Our key finding is that, for a scalar prediction task, many of the irreducible representations are simply ignored during training — specifically those pertaining to vector ($l=1$) and tensor quantities ($l=2$) — an issue that does not necessarily make itself evident in the test metric. We empirically show that removing some unused orders of spherical harmonics improves model performance, correlating with improved latent space structure. We provide a number of recommendations for future experiments to try and improve efficiency and utilization of equivariant features based on these observations.

arxiv情報

著者 Kin Long Kelvin Lee,Mikhail Galkin,Santiago Miret
発行日 2024-10-10 17:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph | Deconstructing equivariant representations in molecular systems はコメントを受け付けていません

Control, Transport and Sampling: Towards Better Loss Design

要約

拡散ベースのサンプリング、最適輸送、およびシュオーディンガー橋問題への共有リンクを介した確率的最適制御の間の接続を活用して、$\nu$ を $\mu$ に輸送するために使用できる新しい目的関数を提案します。
最適に制御されたダイナミクスを介して、ターゲット $\mu$ からサンプルを取得します。
パスごとの視点の重要性と、パス測定におけるさまざまな最適性条件が有効なトレーニング損失の設計に果たせる役割、およびそれらを慎重に選択することで実装時に数値上の利点がもたらされることを強調します。
Schr\’odinger ブリッジの形式主義に基づくと、ニューラル ネットワークのトレーニングに関して、帰納的バイアスを焼き込む実用的な機能が追加されます。

要約(オリジナル)

Leveraging connections between diffusion-based sampling, optimal transport, and stochastic optimal control through their shared links to the Schr\’odinger bridge problem, we propose novel objective functions that can be used to transport $\nu$ to $\mu$, consequently sample from the target $\mu$, via optimally controlled dynamics. We highlight the importance of the pathwise perspective and the role various optimality conditions on the path measure can play for the design of valid training losses, the careful choice of which offer numerical advantages in implementation. Basing the formalism on Schr\’odinger bridge comes with the additional practical capability of baking in inductive bias when it comes to Neural Network training.

arxiv情報

著者 Qijia Jiang,David Nabergoj
発行日 2024-10-10 17:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | Control, Transport and Sampling: Towards Better Loss Design はコメントを受け付けていません

Stability-Aware Training of Machine Learning Force Fields with Differentiable Boltzmann Estimators

要約

機械学習力場 (MLFF) は、分子動力学 (MD) シミュレーションの非経験的手法に代わる魅力的な代替手段です。
ただし、不安定なシミュレーションが生成される可能性があり、より長いタイムスケールで発生する現象をモデル化する能力が制限され、推定される観測量の品質が損なわれます。
これらの課題に対処するために、参照量子力学計算とシステム観測量からの共同監視を活用するマルチモーダル トレーニング手順である、安定性を考慮したボルツマン推定器 (StABlE) トレーニングを紹介します。
StABlE Training は、多くの MD シミュレーションを並行して繰り返し実行して不安定な領域を探し出し、参照観測値による監視を通じて不安定性を修正します。
当社は、暗黙的な微分手法をより広範なクラスの確率的アルゴリズムに一般化したボルツマン推定器を使用した MD シミュレーションを通じて、効率的なエンドツーエンドの自動微分を実現します。
アクティブラーニングに基づく既存の手法とは異なり、私たちのアプローチは追加の非経験的エネルギーを必要とせず、不安定性を修正するために計算を強制します。
私たちは、3 つの最新の MLFF アーキテクチャを使用して、有機分子、テトラペプチド、凝縮相システムにわたる方法論を実証します。
StABlE でトレーニングされたモデルは、シミュレーションの安定性、データ効率、参照観測値との一致において大幅な改善を達成します。
第一原理計算とともにオブザーバブルをトレーニング プロセスに組み込むことにより、StABlE トレーニングは、MLFF アーキテクチャおよびシステム全体に適用できる一般的な半経験的フレームワークとみなすことができます。
これにより、特に大規模な参照データセットがない場合に、安定した正確な MLFF をトレーニングするための強力なツールになります。

要約(オリジナル)

Machine learning force fields (MLFFs) are an attractive alternative to ab-initio methods for molecular dynamics (MD) simulations. However, they can produce unstable simulations, limiting their ability to model phenomena occurring over longer timescales and compromising the quality of estimated observables. To address these challenges, we present Stability-Aware Boltzmann Estimator (StABlE) Training, a multi-modal training procedure which leverages joint supervision from reference quantum-mechanical calculations and system observables. StABlE Training iteratively runs many MD simulations in parallel to seek out unstable regions, and corrects the instabilities via supervision with a reference observable. We achieve efficient end-to-end automatic differentiation through MD simulations using our Boltzmann Estimator, a generalization of implicit differentiation techniques to a broader class of stochastic algorithms. Unlike existing techniques based on active learning, our approach requires no additional ab-initio energy and forces calculations to correct instabilities. We demonstrate our methodology across organic molecules, tetrapeptides, and condensed phase systems, using three modern MLFF architectures. StABlE-trained models achieve significant improvements in simulation stability, data efficiency, and agreement with reference observables. By incorporating observables into the training process alongside first-principles calculations, StABlE Training can be viewed as a general semi-empirical framework applicable across MLFF architectures and systems. This makes it a powerful tool for training stable and accurate MLFFs, particularly in the absence of large reference datasets.

arxiv情報

著者 Sanjeev Raja,Ishan Amin,Fabian Pedregosa,Aditi S. Krishnapriyan
発行日 2024-10-10 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.mtrl-sci, cs.LG, physics.chem-ph, physics.comp-ph | Stability-Aware Training of Machine Learning Force Fields with Differentiable Boltzmann Estimators はコメントを受け付けていません

Features are fate: a theory of transfer learning in high-dimensional regression

要約

大規模な事前トレーニング済みニューラル ネットワークの出現により、そのような「基礎」モデルをデータが制限された下流タスクに適応させる方法が必要になりました。
ターゲット タスクがソース タスクによく似ている場合、微調整、優先度の最適化、および転移学習はすべて、これらの目的にうまく採用されていますが、「タスクの類似性」についての正確な理論的理解はまだ不足しています。
従来の通念では、$\phi$-divergences や積分確率メトリクスなど、ソース分布とターゲット分布の間の類似性の単純な尺度が転送の成功を直接予測できると考えられていますが、一般的にこれはそうではないという驚くべき事実を私たちは証明しています。
場合。
代わりに、転移学習に関して特徴中心の視点を採用し、ターゲット タスクが事前トレーニング済みモデルの特徴空間で適切に表現されている場合、転移学習がゼロからのトレーニングよりも優れていることを示す多くの理論的結果を確立します。
私たちは、転移学習の最小モデルとして深層線形ネットワークを研究します。このモデルでは、ターゲット データセット サイズと特徴空間の重なりの関数として転移性フェーズ ダイアグラムを分析的に特徴付けることができます。
このモデルでは、ソース タスクとターゲット タスクの間の特徴空間のオーバーラップが十分に強い場合、線形転送と微調整の両方によって、特にデータ制限が低い場合にパフォーマンスが向上することが厳密に確立されています。
これらの結果は、深層線形ネットワークにおける特徴学習ダイナミクスの新たな理解に基づいており、線形の場合について導いた厳密な結果が非線形ネットワークにも当てはまることを数値的に示しています。

要約(オリジナル)

With the emergence of large-scale pre-trained neural networks, methods to adapt such ‘foundation’ models to data-limited downstream tasks have become a necessity. Fine-tuning, preference optimization, and transfer learning have all been successfully employed for these purposes when the target task closely resembles the source task, but a precise theoretical understanding of ‘task similarity’ is still lacking. While conventional wisdom suggests that simple measures of similarity between source and target distributions, such as $\phi$-divergences or integral probability metrics, can directly predict the success of transfer, we prove the surprising fact that, in general, this is not the case. We adopt, instead, a feature-centric viewpoint on transfer learning and establish a number of theoretical results that demonstrate that when the target task is well represented by the feature space of the pre-trained model, transfer learning outperforms training from scratch. We study deep linear networks as a minimal model of transfer learning in which we can analytically characterize the transferability phase diagram as a function of the target dataset size and the feature space overlap. For this model, we establish rigorously that when the feature space overlap between the source and target tasks is sufficiently strong, both linear transfer and fine-tuning improve performance, especially in the low data limit. These results build on an emerging understanding of feature learning dynamics in deep linear networks, and we demonstrate numerically that the rigorous results we derive for the linear case also apply to nonlinear networks.

arxiv情報

著者 Javan Tahir,Surya Ganguli,Grant M. Rotskoff
発行日 2024-10-10 17:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Features are fate: a theory of transfer learning in high-dimensional regression はコメントを受け付けていません

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

要約

Adam は、言語モデルをトレーニングする際に SGD よりも優れたパフォーマンスを発揮します。
しかし、この利点は理論的には十分に理解されていません。Adam と SGD の以前の収束解析は主にステップ数 $T$ に焦点を当てており、非凸のケースではすでにミニマックス最適化されており、両方とも $\widetilde{O}(
T^{-1/4})$。
この研究では、優れた $\ell_\infty$-geometry の活用が SGD に対する Adam の主な利点であると主張します。
より具体的には、より一般的な $\ell_2$-geometry ではなく $\ell_\infty$-geometry の下で損失が滑らかであるという新しい仮定の下で、Adam の新しい収束解析を行います。これにより、GPT のより優れた経験的滑らかさ定数が得られます。
2 および ResNet モデル。
私たちの実験では、SGD がおそらく影響を受けないまま、有利な $\ell_\infty$-geometry が変更されると、Adam のパフォーマンスが大幅に低下することが確認されました。
また、新しいブロック単位の滑らかさの仮定の下で、収束解析をブロック単位の Adam に拡張します。

要約(オリジナル)

Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.

arxiv情報

著者 Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li
発行日 2024-10-10 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity はコメントを受け付けていません

Efficient Dictionary Learning with Switch Sparse Autoencoders

要約

スパース オートエンコーダ (SAE) は、ニューラル ネットワークの活性化を人間が解釈可能な特徴に分解するための最近の技術です。
ただし、SAE がフロンティア モデルで表現されるすべての特徴を識別するには、モデルを非常に広い幅にスケールアップする必要があり、計算上の課題が生じます。
この研究では、SAE のトレーニングの計算コストを削減することを目的とした新しい SAE アーキテクチャである Switch Sparse Autoencoders を紹介します。
エキスパート モデルのまばらな混合からインスピレーションを得たスイッチ SAE は、より小規模な「エキスパート」 SAE 間でアクティベーション ベクトルをルーティングし、SAE がより多くの機能に効率的に拡張できるようにします。
スイッチ SAE と他の SAE アーキテクチャを比較する実験を紹介し、スイッチ SAE は、特定の固定トレーニング コンピューティング バジェットに対して、再構成とスパーシティ フロンティアにおいて大幅なパレート改善を実現することを発見しました。
また、複数の専門家間で機能のジオメトリを調査し、複数の専門家間で重複する機能を分析し、Switch SAE 機能が他の SAE アーキテクチャで見つかった機能と同様に解釈可能であることを検証します。

要約(オリジナル)

Sparse autoencoders (SAEs) are a recent technique for decomposing neural network activations into human-interpretable features. However, in order for SAEs to identify all features represented in frontier models, it will be necessary to scale them up to very high width, posing a computational challenge. In this work, we introduce Switch Sparse Autoencoders, a novel SAE architecture aimed at reducing the compute cost of training SAEs. Inspired by sparse mixture of experts models, Switch SAEs route activation vectors between smaller ‘expert’ SAEs, enabling SAEs to efficiently scale to many more features. We present experiments comparing Switch SAEs with other SAE architectures, and find that Switch SAEs deliver a substantial Pareto improvement in the reconstruction vs. sparsity frontier for a given fixed training compute budget. We also study the geometry of features across experts, analyze features duplicated across experts, and verify that Switch SAE features are as interpretable as features found by other SAE architectures.

arxiv情報

著者 Anish Mudide,Joshua Engels,Eric J. Michaud,Max Tegmark,Christian Schroeder de Witt
発行日 2024-10-10 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Efficient Dictionary Learning with Switch Sparse Autoencoders はコメントを受け付けていません

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning

要約

人間の認知は系統的な構成性、つまり学習された有限の構成要素から無限の新しい組み合わせを生成する代数的能力を示し、これが複雑な論理を理解し推論するための鍵となります。
この研究では、数学的推論における大規模言語モデル (LLM) の構成性を調査します。
具体的には、注意深く設計された論理トラップを MATH と GSM8K の問題記述に導入することにより、新しいデータセット \textsc{MathTrap} を構築します。
論理的欠陥を伴う問題は現実の世界では非常にまれであるため、これらは LLM にとって「目に見えない」ケースとなります。
これらを解決するには、モデルが (1) 元の問題に含まれる数学的知識と (2) 導入されたトラップに関連する知識を体系的に構成する必要があります。
私たちの実験によると、LLM は必要な知識の両方の要素を持っていますが、それらを \textbf{自発的に}組み合わせてこれらの新しいケースを処理するわけではありません。
私たちは、自然言語プロンプト、数ショットのデモンストレーション、微調整など、この欠点を軽減するいくつかの方法を検討しています。
さらに、最近リリースされた OpenAI o1 モデルをテストしたところ、人間のような「遅い思考」が LLM の構成性の向上に役立つことがわかりました。
全体として、体系的な構成性は、大規模な言語モデルにとって未解決の課題のままです。

要約(オリジナル)

Human cognition exhibits systematic compositionality, the algebraic ability to generate infinite novel combinations from finite learned components, which is the key to understanding and reasoning about complex logic. In this work, we investigate the compositionality of large language models (LLMs) in mathematical reasoning. Specifically, we construct a new dataset \textsc{MathTrap} by introducing carefully designed logical traps into the problem descriptions of MATH and GSM8K. Since problems with logical flaws are quite rare in the real world, these represent ‘unseen’ cases to LLMs. Solving these requires the models to systematically compose (1) the mathematical knowledge involved in the original problems with (2) knowledge related to the introduced traps. Our experiments show that while LLMs possess both components of requisite knowledge, they do not \textbf{spontaneously} combine them to handle these novel cases. We explore several methods to mitigate this deficiency, such as natural language prompts, few-shot demonstrations, and fine-tuning. Additionally, we test the recently released OpenAI o1 model and find that human-like `slow thinking’ helps improve the compositionality of LLMs. Overall, systematic compositionality remains an open challenge for large language models.

arxiv情報

著者 Jun Zhao,Jingqi Tong,Yurong Mou,Ming Zhang,Qi Zhang,Xuanjing Huang
発行日 2024-10-10 14:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning はコメントを受け付けていません