Transformers are Provably Optimal In-context Estimators for Wireless Communications

要約

事前に訓練された変圧器は、明示的なモデルの最適化なしに限られたプロンプトのセットを効率的に利用するコンテキスト学習(ICL)を通じて新しいタスクに適応する機能を示します。
受信した観測から送信されたシンボルを推定する標準的なコミュニケーションの問題は、コンテキスト内学習問題としてモデル化できます。受信観測は送信されたシンボルの騒々しい機能であり、この関数は、統計が未知の潜在的なコンテキストに依存する未知のパラメーターで表すことができます。
コンテキスト内推定(ICE)と呼ぶこの問題は、広範囲に研究された線形回帰問題よりも著しく大きい複雑さを持っています。
氷の問題に対する最適な解決策は、基礎となるコンテキストの非線形関数です。
この論文では、このような問題のサブクラスの場合、単一層のソフトマックス注意トランス(SAT)が、上記の推定問題の最適な解を大きなプロンプトの長さの限界に計算することを証明します。
また、このような変圧器の最適な構成は、実際に対応するトレーニング損失のミニマライザーであることを証明します。
さらに、より広範なコンテキストの推定問題を効率的に解く際に、多層変圧器の習熟度を経験的に実証します。
大規模なシミュレーションを通じて、トランスを使用して氷の問題を解決することは、標準的なアプローチを大幅に上回ることを示しています。
さらに、いくつかのコンテキストの例を使用して、潜在的なコンテキストを完全に知ることで、推定器と同じパフォーマンスを達成します。
コードは\ href {https://github.com/vishnutez/in-context-estimation} {ここで}可能です。

要約(オリジナル)

Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modeled as an in-context learning problem: received observations are a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an unknown latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single-layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such a transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context. The code is available \href{https://github.com/vishnutez/in-context-estimation}{here}.

arxiv情報

著者 Vishnu Teja Kunde,Vicram Rajagopalan,Chandra Shekhara Kaushik Valmeekam,Krishna Narayanan,Srinivas Shakkottai,Dileep Kalathil,Jean-Francois Chamberland
発行日 2025-03-11 16:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Transformers are Provably Optimal In-context Estimators for Wireless Communications はコメントを受け付けていません

Perfect Recovery for Random Geometric Graph Matching with Shallow Graph Neural Networks

要約

浅いグラフニューラルネットワークを使用して、頂点の特徴情報が存在する場合のグラフマッチング問題を研究します。
具体的には、スパースバイナリ機能を備えた単一のランダムな幾何学グラフの独立した摂動である2つのグラフが与えられた場合、2つのグラフの頂点間の未知の1対1のマッピングを回復することです。
特徴ベクトルのスパース性とノイズレベルの特定の条件下で、慎重に設計された2層グラフニューラルネットワークは、高い確率で、グラフ構造の助けを借りて頂点間の正しいマッピングを回復することができます。
さらに、ノイズパラメーターに対する条件が対数要因にぴったりであることを証明します。
最後に、グラフニューラルネットワークのパフォーマンスを比較して、ノイズの多い頂点機能を使用して割り当ての問題を直接解決し、ノイズレベルが少なくとも一定の場合、この直接的なマッチングが完全な回復を達成できず、グラフニューラルネットワークはグラフのサイズのパワーと同じくらい速く成長するノイズレベルに耐えることができます。
理論的な調査結果は、数値研究と実際のデータ実験によってさらにサポートされています。

要約(オリジナル)

We study the graph matching problem in the presence of vertex feature information using shallow graph neural networks. Specifically, given two graphs that are independent perturbations of a single random geometric graph with sparse binary features, the task is to recover an unknown one-to-one mapping between the vertices of the two graphs. We show under certain conditions on the sparsity and noise level of the feature vectors, a carefully designed two-layer graph neural network can, with high probability, recover the correct mapping between the vertices with the help of the graph structure. Additionally, we prove that our condition on the noise parameter is tight up to logarithmic factors. Finally, we compare the performance of the graph neural network to directly solving an assignment problem using the noisy vertex features and demonstrate that when the noise level is at least constant, this direct matching fails to achieve perfect recovery, whereas the graph neural network can tolerate noise levels growing as fast as a power of the size of the graph. Our theoretical findings are further supported by numerical studies as well as real-world data experiments.

arxiv情報

著者 Suqi Liu,Morgane Austern
発行日 2025-03-11 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.SI, math.IT, math.PR, math.ST, stat.ML, stat.TH | Perfect Recovery for Random Geometric Graph Matching with Shallow Graph Neural Networks はコメントを受け付けていません

Hierarchical autoregressive neural networks in three-dimensional statistical system

要約

自己回帰ニューラルネットワーク(ANN)は、いくつかのスピンシステムのモンテカルロアルゴリズムの効率を改善するメカニズムとして最近提案されています。
このアイデアは、構成の総確率を各スピンの条件付き確率に考慮できるという事実に依存しており、これはニューラルネットワークによって近似できることです。
訓練されたら、ANNを使用して、近似確率分布から構成をサンプリングし、特定の構成のこの確率を明示的に評価できます。
また、このような条件付き確率は、相互情報やエンタングルメントエントロピーなどの情報理論的観測可能性へのアクセスを提供することも観察されています。
これまでのところ、これらの方法は、2次元統計システムまたは1次元量子システムに適用されてきました。
この論文では、階層アルゴリズムの3つの空間寸法への一般化について説明し、ISINGモデルの例でそのパフォーマンスを研究します。
トレーニングの効率について説明し、同じ数のスピンを持つ2次元および3次元ISのモデルの結果を比較することにより、システムの次元とのスケーリングについても説明します。
最後に、相転移全体の温度範囲でエントロピーや自由エネルギーなど、3次元ISINGモデルの熱力学的観測可能性の推定値を提供します。

要約(オリジナル)

Autoregressive Neural Networks (ANN) have been recently proposed as a mechanism to improve the efficiency of Monte Carlo algorithms for several spin systems. The idea relies on the fact that the total probability of a configuration can be factorized into conditional probabilities of each spin, which in turn can be approximated by a neural network. Once trained, the ANNs can be used to sample configurations from the approximated probability distribution and to evaluate explicitly this probability for a given configuration. It has also been observed that such conditional probabilities give access to information-theoretic observables such as mutual information or entanglement entropy. So far, these methods have been applied to two-dimensional statistical systems or one-dimensional quantum systems. In this paper, we describe a generalization of the hierarchical algorithm to three spatial dimensions and study its performance on the example of the Ising model. We discuss the efficiency of the training and also describe the scaling with the system’s dimensionality by comparing results for two- and three-dimensional Ising models with the same number of spins. Finally, we provide estimates of thermodynamical observables for the three-dimensional Ising model, such as the entropy and free energy in a range of temperatures across the phase transition.

arxiv情報

著者 Piotr Białas,Vaibhav Chahar,Piotr Korcyl,Tomasz Stebel,Mateusz Winiarski,Dawid Zapolski
発行日 2025-03-11 16:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, hep-lat | Hierarchical autoregressive neural networks in three-dimensional statistical system はコメントを受け付けていません

How Does Overparameterization Affect Machine Unlearning of Deep Neural Networks?

要約

マシンの非学習は、ゼロから再訓練せずに特定のトレーニングデータを忘れるようにトレーニングされたモデルを更新するタスクです。
この論文では、深いニューラルネットワーク(DNNS)の学習がどのようにモデルパラメーター化レベルの影響を受けるかを調査します。これは、ここではDNN幅に対応しています。
最近の文献からのいくつかの未学習方法の検証ベースのチューニングを定義し、(i)DNNパラメーター化レベル、(ii)未学習の目標(未学習のデータプライバシーまたはバイアス除去)、(iii)未学習方法が未定の例を明示的に使用するかどうかに応じて、これらの方法がどのように異なるかを示します。
我々の結果は、一般化と学習の目標を達成するという点で、解き放たれたモデルがオーバーパラメータ化されたモデルに優れていることを示しています。
バイアス除去のためには、これには未学習の方法が未学習の例を使用する必要があります。
さらに、未学習が分類決定領域をどの程度変更するかを測定することにより、エラーベースの分析をさらに解明し、未学習の例の近接性において、それらを他の場所で変更しないようにします。
これにより、オーバーパラメータ化されたモデルの未学習の成功は、モデル機能の多くを変更せずに、入力空間の小さな領域のモデル機能を繊細に変更する能力に起因することを示しています。

要約(オリジナル)

Machine unlearning is the task of updating a trained model to forget specific training data without retraining from scratch. In this paper, we investigate how unlearning of deep neural networks (DNNs) is affected by the model parameterization level, which corresponds here to the DNN width. We define validation-based tuning for several unlearning methods from the recent literature, and show how these methods perform differently depending on (i) the DNN parameterization level, (ii) the unlearning goal (unlearned data privacy or bias removal), (iii) whether the unlearning method explicitly uses the unlearned examples. Our results show that unlearning excels on overparameterized models, in terms of balancing between generalization and achieving the unlearning goal; although for bias removal this requires the unlearning method to use the unlearned examples. We further elucidate our error-based analysis by measuring how much the unlearning changes the classification decision regions in the proximity of the unlearned examples, and avoids changing them elsewhere. By this we show that the unlearning success for overparameterized models stems from the ability to delicately change the model functionality in small regions in the input space while keeping much of the model functionality unchanged.

arxiv情報

著者 Gal Alon,Yehuda Dar
発行日 2025-03-11 17:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | How Does Overparameterization Affect Machine Unlearning of Deep Neural Networks? はコメントを受け付けていません

Preserving clusters and correlations: a dimensionality reduction method for exceptionally high global structure preservation

要約

保存クラスターと相関(PCC)、新しい次元削減(DR)メソッド競争力のあるローカル構造(LS)の保存を維持しながら、最先端のグローバル構造(GS)保存を達成する新しい次元削減(DR)メソッドを提示します。
2つの目的を最適化します。ピアソンとスピアマンの相関の近似と低次元の距離の間の近似を保持するGS保存目標と、高次元データのクラスターを保証するLS保存目標は、低次元データで分離可能です。
PCCには、競争力のあるLS保存をしながらGSを保存する最先端の能力があります。
さらに、相関目標をUMAPと組み合わせて、LSの最小限の分解でGSの保存を大幅に改善できることを示します。
既存の方法に対してPCCを定量的にベンチマークし、医療イメージングにおけるその有用性を実証し、PCCはベンチマークで優れたGS保存を実証する競争力のあるDR技術です。

要約(オリジナル)

We present Preserving Clusters and Correlations (PCC), a novel dimensionality reduction (DR) method a novel dimensionality reduction (DR) method that achieves state-of-the-art global structure (GS) preservation while maintaining competitive local structure (LS) preservation. It optimizes two objectives: a GS preservation objective that preserves an approximation of Pearson and Spearman correlations between high- and low-dimensional distances, and an LS preservation objective that ensures clusters in the high-dimensional data are separable in the low-dimensional data. PCC has a state-of-the-art ability to preserve the GS while having competitive LS preservation. In addition, we show the correlation objective can be combined with UMAP to significantly improve its GS preservation with minimal degradation of the LS. We quantitatively benchmark PCC against existing methods and demonstrate its utility in medical imaging, and show PCC is a competitive DR technique that demonstrates superior GS preservation in our benchmarks.

arxiv情報

著者 Jacob Gildenblat,Jens Pahnke
発行日 2025-03-11 17:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Preserving clusters and correlations: a dimensionality reduction method for exceptionally high global structure preservation はコメントを受け付けていません

Coefficient-to-Basis Network: A Fine-Tunable Operator Learning Framework for Inverse Problems with Adaptive Discretizations and Theoretical Guarantees

要約

オペレーター学習パラダイム内で逆問題を解決するための新しいフレームワークである係数間ネットワーク(C2BNET)を提案します。
C2BNETは、事前に訓練されたモデルを使用して、高精度を維持しながら計算コストを大幅に削減し、微調整を通じて異なる離散化に効率的に適応します。
新しい離散化のためにゼロからの再訓練を必要とする従来のアプローチとは異なり、私たちの方法は、予測パフォーマンスを犠牲にすることなくシームレスな適応を可能にします。
さらに、基礎となるデータセットの低次元構造を活用することにより、C2BNETの理論的近似と一般化誤差境界を確立します。
私たちの分析は、C2BNETが明示的なエンコードメカニズムに依存することなく低次元構造に適応し、その堅牢性と効率を強調することを示しています。
理論的な調査結果を検証するために、いくつかの逆の問題に対するC2BNETの優れた性能を示す広範な数値実験を実施しました。
結果は、C2BNETが計算効率と精度を効果的にバランスさせ、科学的コンピューティングおよびエンジニアリングアプリケーションの逆問題を解決するための有望なツールであることを確認しています。

要約(オリジナル)

We propose a Coefficient-to-Basis Network (C2BNet), a novel framework for solving inverse problems within the operator learning paradigm. C2BNet efficiently adapts to different discretizations through fine-tuning, using a pre-trained model to significantly reduce computational cost while maintaining high accuracy. Unlike traditional approaches that require retraining from scratch for new discretizations, our method enables seamless adaptation without sacrificing predictive performance. Furthermore, we establish theoretical approximation and generalization error bounds for C2BNet by exploiting low-dimensional structures in the underlying datasets. Our analysis demonstrates that C2BNet adapts to low-dimensional structures without relying on explicit encoding mechanisms, highlighting its robustness and efficiency. To validate our theoretical findings, we conducted extensive numerical experiments that showcase the superior performance of C2BNet on several inverse problems. The results confirm that C2BNet effectively balances computational efficiency and accuracy, making it a promising tool to solve inverse problems in scientific computing and engineering applications.

arxiv情報

著者 Zecheng Zhang,Hao Liu,Wenjing Liao,Guang Lin
発行日 2025-03-11 17:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Coefficient-to-Basis Network: A Fine-Tunable Operator Learning Framework for Inverse Problems with Adaptive Discretizations and Theoretical Guarantees はコメントを受け付けていません

Extra Clients at No Extra Cost: Overcome Data Heterogeneity in Federated Learning with Filter Decomposition

要約

データの不均一性は、フェデレートラーニング(FL)の主要な課題の1つであり、それが実質的なクライアントの分散と収束が遅いことをもたらします。
この研究では、新しいソリューションを提案します。FLの畳み込みフィルターをフィルターサブスペース要素、つまりフィルター原子の線形結合に分解します。
この単純な手法は、FLのグローバルフィルター凝集を凝集フィルター原子とその原子係数に変換します。
ここでの重要な利点は、フィルター原子と原子係数から2つの加重合計の積を拡大することにより、数学的に多数の交差体を生成することです。
これらの交差点は、多くの追加の潜在的なクライアントを効果的にエミュレートし、モデルの分散を大幅に削減します。これは、理論分析と経験的観察によって検証されます。
さらに、我々の方法では、フィルター原子と原子係数のさまざまなトレーニングスキームが、高度に適応的なモデルのパーソナライズとコミュニケーション効率を可能にします。
ベンチマークデータセットの経験的結果は、フィルター分解技術がFLメソッドの精度を大幅に改善し、データの不均一性に対処する際のその有効性を確認することを示しています。

要約(オリジナル)

Data heterogeneity is one of the major challenges in federated learning (FL), which results in substantial client variance and slow convergence. In this study, we propose a novel solution: decomposing a convolutional filter in FL into a linear combination of filter subspace elements, i.e., filter atoms. This simple technique transforms global filter aggregation in FL into aggregating filter atoms and their atom coefficients. The key advantage here involves mathematically generating numerous cross-terms by expanding the product of two weighted sums from filter atom and atom coefficient. These cross-terms effectively emulate many additional latent clients, significantly reducing model variance, which is validated by our theoretical analysis and empirical observation. Furthermore, our method permits different training schemes for filter atoms and atom coefficients for highly adaptive model personalization and communication efficiency. Empirical results on benchmark datasets demonstrate that our filter decomposition technique substantially improves the accuracy of FL methods, confirming its efficacy in addressing data heterogeneity.

arxiv情報

著者 Wei Chen,Qiang Qiu
発行日 2025-03-11 17:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Extra Clients at No Extra Cost: Overcome Data Heterogeneity in Federated Learning with Filter Decomposition はコメントを受け付けていません

Functional Brain Network Identification in Opioid Use Disorder Using Machine Learning Analysis of Resting-State fMRI BOLD Signals

要約

安静時の機能的磁気共鳴画像法(RS-FMRI)を使用したオピオイド使用障害(OUD)の神経生物学を理解することは、患者の転帰を改善するための治療戦略を通知するのに役立つ可能性があります。
最近の文献では、RS-FMRI血液酸素化レベル依存性(BOLD)シグナルの時間周波数特性が、従来の分析手法に補完的な情報を提供する可能性があることを示唆しています。
ただし、OUDの既存の研究では、すべての時点で計算された測定値を使用して、BOLD信号を分析します。
この研究は、文献で初めて、データ駆動型の機械学習(ML)を採用して、主要な機能ネットワーク内の局所神経活動の時間周波数分析を採用して、OUD被験者を健康なコントロール(HC)と区別しています。
デフォルトモードネットワーク(DMN)、Salienceネットワーク(SN)、および31 OUDおよび45 HCの被験者のエグゼクティブコントロールネットワーク(ECN)からRS-FMRI Bold信号に基づいて、時間周波数機能を取得します。
次に、重要な人口統計機能を考慮しながら、機能ネットワーク機能の識別力を研究するために、5倍の交差検証分類(OUD vs. HC)実験を実行します。
DMNとSNは、それぞれ0.7097と0.7018の平均F1スコア、およびそれぞれ0.8378と0.8755の平均AUCSで、最も識別力のあるパワーを有意に(P <0.05)偶然のベースラインよりも優れています。 選択された時間周波数(ウェーブレット)機能のフォローアップBoruta ML分析により、3つの機能ネットワークすべての重要な(p <0.05)詳細係数が明らかになり、OUDの研究におけるRS-FMRI太字シグナルのMLと時間周波数分析の必要性を強調しています。

要約(オリジナル)

Understanding the neurobiology of opioid use disorder (OUD) using resting-state functional magnetic resonance imaging (rs-fMRI) may help inform treatment strategies to improve patient outcomes. Recent literature suggests time-frequency characteristics of rs-fMRI blood oxygenation level-dependent (BOLD) signals may offer complementary information to traditional analysis techniques. However, existing studies of OUD analyze BOLD signals using measures computed across all time points. This study, for the first time in the literature, employs data-driven machine learning (ML) for time-frequency analysis of local neural activity within key functional networks to differentiate OUD subjects from healthy controls (HC). We obtain time-frequency features based on rs-fMRI BOLD signals from the default mode network (DMN), salience network (SN), and executive control network (ECN) for 31 OUD and 45 HC subjects. Then, we perform 5-fold cross-validation classification (OUD vs. HC) experiments to study the discriminative power of functional network features while taking into consideration significant demographic features. The DMN and SN show the most discriminative power, significantly (p < 0.05) outperforming chance baselines with mean F1 scores of 0.7097 and 0.7018, respectively, and mean AUCs of 0.8378 and 0.8755, respectively. Follow-up Boruta ML analysis of selected time-frequency (wavelet) features reveals significant (p < 0.05) detail coefficients for all three functional networks, underscoring the need for ML and time-frequency analysis of rs-fMRI BOLD signals in the study of OUD.

arxiv情報

著者 Ahmed Temtam,Megan A. Witherow,Liangsuo Ma,M. Shibly Sadique,F. Gerard Moeller,Khan M. Iftekharuddin
発行日 2025-03-11 17:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Functional Brain Network Identification in Opioid Use Disorder Using Machine Learning Analysis of Resting-State fMRI BOLD Signals はコメントを受け付けていません

Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields

要約

機械学習力フィールド(MLFF)は、高価なab initio量子機械分子シミュレーションの有望な代替手段です。
興味深い化学スペースの多様性と新しいデータを生成するコストを考えると、MLFFがトレーニング分布を超えてどのように一般化するかを理解することが重要です。
MLFFの分布シフトを特徴付け、よりよく理解するために、化学データセットで診断実験を実施し、広範なデータで訓練された大規模な基礎モデルであっても、重要な課題をもたらす一般的なシフトを明らかにします。
これらの観察に基づいて、現在の監視されたトレーニング方法がMLFFを正規化し、分散型システムの不十分な表現を過剰に装着および学習することを仮定します。
次に、MLFFの分布シフトを緩和するための初期手順として2つの新しい方法を提案します。
当社の方法は、最小限の計算コストを負い、高価なab initioリファレンスラベルを使用しないテスト時間改良戦略に焦点を当てています。
スペクトルグラフ理論に基づく最初の戦略は、テストグラフのエッジを変更して、トレーニング中に見られるグラフ構造と整合します。
2番目の戦略は、安価な物理的な事前などの補助目標を使用して勾配の手順を実行することにより、テスト時に分散排出システムの表現を改善します。
テスト時間の改良戦略は、分散排出システムのエラーを大幅に削減し、MLFFが多様な化学空間のモデリングに移行できるが、そうするように効果的に訓練されていないことを示唆しています。
私たちの実験は、次世代のMLFFの一般化能力を評価するための明確なベンチマークを確立します。
私たちのコードは、https://tkreiman.github.io/projects/mlff_distribution_shifts/で入手できます。

要約(オリジナル)

Machine Learning Force Fields (MLFFs) are a promising alternative to expensive ab initio quantum mechanical molecular simulations. Given the diversity of chemical spaces that are of interest and the cost of generating new data, it is important to understand how MLFFs generalize beyond their training distributions. In order to characterize and better understand distribution shifts in MLFFs, we conduct diagnostic experiments on chemical datasets, revealing common shifts that pose significant challenges, even for large foundation models trained on extensive data. Based on these observations, we hypothesize that current supervised training methods inadequately regularize MLFFs, resulting in overfitting and learning poor representations of out-of-distribution systems. We then propose two new methods as initial steps for mitigating distribution shifts for MLFFs. Our methods focus on test-time refinement strategies that incur minimal computational cost and do not use expensive ab initio reference labels. The first strategy, based on spectral graph theory, modifies the edges of test graphs to align with graph structures seen during training. Our second strategy improves representations for out-of-distribution systems at test-time by taking gradient steps using an auxiliary objective, such as a cheap physical prior. Our test-time refinement strategies significantly reduce errors on out-of-distribution systems, suggesting that MLFFs are capable of and can move towards modeling diverse chemical spaces, but are not being effectively trained to do so. Our experiments establish clear benchmarks for evaluating the generalization capabilities of the next generation of MLFFs. Our code is available at https://tkreiman.github.io/projects/mlff_distribution_shifts/.

arxiv情報

著者 Tobias Kreiman,Aditi S. Krishnapriyan
発行日 2025-03-11 17:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph, q-bio.BM | Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields はコメントを受け付けていません

Investigating Execution-Aware Language Models for Code Optimization

要約

コードの最適化は、意図した機能を維持しながら、コード効率を向上させるプロセスです。
このプロセスでは、非効率性を効果的に特定して対処するために、実行時にコード実行動作を深く理解する必要があることがよくあります。
最近の研究では、言語モデルがコードの最適化を自動化する上で重要な役割を果たすことができることが示されています。
ただし、これらのモデルは、実行時にコードがどのように実行されるかについての知識が不十分な場合があります。
この制限に対処するために、研究者はコード実行情報を言語モデルに統合する戦略を開発しました。
これらの戦略は、さまざまなソフトウェアエンジニアリングタスクにおける言語モデルの有効性を高める可能性を示しています。
ただし、コード実行の動作と効率性との密接な関係にもかかわらず、これらの戦略がコードの最適化に及ぼす特定の影響は、ほとんど説明されていません。
この調査では、コード実行情報を言語モデルに組み込むことがコードを最適化する能力にどのように影響するかを調査します。
具体的には、3つの異なるトレーニング戦略を適用して、4つのコード実行の側面(ライン実行、ラインカバレッジ、ブランチカバレッジ、および可変状​​態)をCodet5+に組み込み、コードのよく知られた言語モデルです。
我々の結果は、実行認識モデルがコードの最適化における標準のCodet5+モデルと比較して、限られた利点を提供することを示しています。

要約(オリジナル)

Code optimization is the process of enhancing code efficiency, while preserving its intended functionality. This process often requires a deep understanding of the code execution behavior at run-time to identify and address inefficiencies effectively. Recent studies have shown that language models can play a significant role in automating code optimization. However, these models may have insufficient knowledge of how code execute at run-time. To address this limitation, researchers have developed strategies that integrate code execution information into language models. These strategies have shown promise, enhancing the effectiveness of language models in various software engineering tasks. However, despite the close relationship between code execution behavior and efficiency, the specific impact of these strategies on code optimization remains largely unexplored. This study investigates how incorporating code execution information into language models affects their ability to optimize code. Specifically, we apply three different training strategies to incorporate four code execution aspects — line executions, line coverage, branch coverage, and variable states — into CodeT5+, a well-known language model for code. Our results indicate that execution-aware models provide limited benefits compared to the standard CodeT5+ model in optimizing code.

arxiv情報

著者 Federico Di Menna,Luca Traini,Gabriele Bavota,Vittorio Cortellessa
発行日 2025-03-11 09:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PF, cs.SE | Investigating Execution-Aware Language Models for Code Optimization はコメントを受け付けていません