MotifBench: A standardized protein design benchmark for motif-scaffolding problems

要約

モチーフスコホルディングの問題は、計算タンパク質設計の中心的なタスクです。目的の生化学機能(モチーフ)を付与するために選択された形状の原子の座標を考えると、モチーフとモチーフを含む多様なタンパク質構造(足場)を識別することです。
そのジオメトリを維持します。
信頼性の高いタンパク質構造予測と固定結合骨シーケンスの設計方法による計算評価により、モチーフスコホルディングに関する最近の大幅な進歩がなされています。
ただし、出版物全体の評価戦略の大幅な変動は、結果の比較可能性、挑戦された再現性、および堅牢な進歩を妨げました。
これに応じて、(1)正確に指定されたパイプラインおよび評価メトリックを含むモチーフベンチ、(2)30のベンチマーク問題のコレクション、および(3)github.com/blt2114/motifbenchでのこのベンチマークとリーダーボードの実装を紹介します。
モチーフベンチテストのケースは、以前のベンチマークと比較してより困難であり、ソリューションが既知であるが、私たちの知る限り、最先端の方法がソリューションを特定できないタンパク質設計の問題が含まれています。

要約(オリジナル)

The motif-scaffolding problem is a central task in computational protein design: Given the coordinates of atoms in a geometry chosen to confer a desired biochemical function (a motif), the task is to identify diverse protein structures (scaffolds) that include the motif and maintain its geometry. Significant recent progress on motif-scaffolding has been made due to computational evaluation with reliable protein structure prediction and fixed-backbone sequence design methods. However, significant variability in evaluation strategies across publications has hindered comparability of results, challenged reproducibility, and impeded robust progress. In response we introduce MotifBench, comprising (1) a precisely specified pipeline and evaluation metrics, (2) a collection of 30 benchmark problems, and (3) an implementation of this benchmark and leaderboard at github.com/blt2114/MotifBench. The MotifBench test cases are more difficult compared to earlier benchmarks, and include protein design problems for which solutions are known but on which, to the best of our knowledge, state-of-the-art methods fail to identify any solution.

arxiv情報

著者 Zhuoqi Zheng,Bo Zhang,Kieran Didi,Kevin K. Yang,Jason Yim,Joseph L. Watson,Hai-Feng Chen,Brian L. Trippe
発行日 2025-02-19 17:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM | MotifBench: A standardized protein design benchmark for motif-scaffolding problems はコメントを受け付けていません

Playing Hex and Counter Wargames using Reinforcement Learning and Recurrent Neural Networks

要約

HEXとカウンターウォーゲームは、複雑な戦略的意思決定を必要とする実際の軍事紛争の敵対的な2人のプレイヤーシミュレーションです。
クラシックボードゲームとは異なり、これらのゲームは、複雑な地形/ユニットの相互作用、ユニットのスタッキング、さまざまなサイズの大きなマップ、および数百ユニットを含む同時の移動と戦闘の決定を備えています。
このペーパーでは、信頼できる最新の強化学習アルゴリズムであるAlphazeroと再発性ニューラルネットワークの最先端の進歩を統合することにより、HEXとカウンターウォーゲームの戦略的複雑さに対処するために設計された新しいシステムを紹介します。
このシステムは、これらの特定のゲーム環境に合わせて調整された革新的な状態と行動の表現を組み込んだ既存の研究から開発された新しいニューラルネットワークアーキテクチャを利用しています。
最小限のトレーニングにより、私たちのソリューションは、典型的なシナリオで有望な結果を示しており、さまざまな地形や戦術的な状況にわたって一般化する能力を示しています。
さらに、システムがより大きなマップサイズにスケーリングする可能性を調査します。
開発されたシステムは公然とアクセスしやすく、この挑戦​​的なドメイン内での継続的な研究と調査を促進します。

要約(オリジナル)

Hex and Counter Wargames are adversarial two-player simulations of real military conflicts requiring complex strategic decision-making. Unlike classical board games, these games feature intricate terrain/unit interactions, unit stacking, large maps of varying sizes, and simultaneous move and combat decisions involving hundreds of units. This paper introduces a novel system designed to address the strategic complexity of Hex and Counter Wargames by integrating cutting-edge advancements in Recurrent Neural Networks with AlphaZero, a reliable modern Reinforcement Learning algorithm. The system utilizes a new Neural Network architecture developed from existing research, incorporating innovative state and action representations tailored to these specific game environments. With minimal training, our solution has shown promising results in typical scenarios, demonstrating the ability to generalize across different terrain and tactical situations. Additionally, we explore the system’s potential to scale to larger map sizes. The developed system is openly accessible, facilitating continued research and exploration within this challenging domain.

arxiv情報

著者 Guilherme Palma,Pedro A. Santos,João Dias
発行日 2025-02-19 17:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 | Playing Hex and Counter Wargames using Reinforcement Learning and Recurrent Neural Networks はコメントを受け付けていません

Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis

要約

コード生成の最近の進歩により、PythonやC ++などの汎用プログラミング言語に大規模な言語モデル(LLM)を採用する可能性が明らかになり、ソフトウェア開発を自動化し、プログラマーの生産性を高めるための新しい機会を開きました。
ソフトウェアプログラミングにおけるLLMSの可能性は、自動化されたハードウェアの生成と自動化の調査に大きな関心を集めています。
ハードウェアの説明言語(HDL)の生成にLLMを採用するための予備的な努力がなされていますが、この方向にいくつかの課題が続いています。
まず、利用可能なHDLトレーニングデータのボリュームは、ソフトウェアプログラミング言語のボリュームと比較して大幅に小さくなっています。
第二に、主にソフトウェアコードに合わせた事前に訓練されたLLMSは、エラーが発生しやすいHDLデザインを生成する傾向があります。
第三に、HDLの生成には、ソフトウェアプログラミングと比較してかなり多くのトークンが必要であり、コストとエネルギー消費の非効率性につながります。
これらの課題に取り組むために、このペーパーでは、LLMSを活用して高レベルの合成(HLS)ベースのハードウェア設計を生成することを調査します。
文献では、ドメイン固有のプログラミング言語のコード生成は新しいものではありませんが、LLMアシストハードウェア設計生成の低レベルHDLSを超えるHLSの適合性を調査するために、実験結果、洞察、ベンチマーク、および評価インフラストラクチャを提供することを目指しています。
これを実現するために、最初に、テキストプロンプトと対応する参照HLSデザインを備えた収集されたデータセットを使用して、HLSベースのハードウェア生成の事前訓練モデルをFintuneします。
次に、LLM支援フレームワークが提案され、エンドツーエンドのハードウェアコード生成を自動化します。これは、HLSデザインの生成における技術を促進するチェーンとフィードバックループの影響も調査します。
この研究の時間枠に制限されているため、将来、より高度な推論モデルを評価する予定です。

要約(オリジナル)

Recent advances in code generation have illuminated the potential of employing large language models (LLMs) for general-purpose programming languages such as Python and C++, opening new opportunities for automating software development and enhancing programmer productivity. The potential of LLMs in software programming has sparked significant interest in exploring automated hardware generation and automation. Although preliminary endeavors have been made to adopt LLMs in generating hardware description languages (HDLs), several challenges persist in this direction. First, the volume of available HDL training data is substantially smaller compared to that for software programming languages. Second, the pre-trained LLMs, mainly tailored for software code, tend to produce HDL designs that are more error-prone. Third, the generation of HDL requires a significantly higher number of tokens compared to software programming, leading to inefficiencies in cost and energy consumption. To tackle these challenges, this paper explores leveraging LLMs to generate High-Level Synthesis (HLS)-based hardware design. Although code generation for domain-specific programming languages is not new in the literature, we aim to provide experimental results, insights, benchmarks, and evaluation infrastructure to investigate the suitability of HLS over low-level HDLs for LLM-assisted hardware design generation. To achieve this, we first finetune pre-trained models for HLS-based hardware generation, using a collected dataset with text prompts and corresponding reference HLS designs. An LLM-assisted framework is then proposed to automate end-to-end hardware code generation, which also investigates the impact of chain-of-thought and feedback loops promoting techniques on HLS-design generation. Limited by the timeframe of this research, we plan to evaluate more advanced reasoning models in the future.

arxiv情報

著者 Jiahao Gai,Hao,Chen,Zhican Wang,Hongyu Zhou,Wanru Zhao,Nicholas Lane,Hongxiang Fan
発行日 2025-02-19 17:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG, cs.SE | Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis はコメントを受け付けていません

Bayesian Comparisons Between Representations

要約

どのニューラルネットワークが類似しているかは、機械学習と神経科学の両方にとって基本的な問題です。
ここでは、中間表現からの線形読み取りの予測分布に基づいて比較することを提案します。
ベイジアン統計では、以前の予測分布は、モデルの誘導バイアスと一般化の完全な説明であり、比較のための大きな根拠となっています。
この分布は、データセットがモデルを支持して提供する証拠を直接提供します。
複数のモデルを互いに比較したい場合は、ジェンセンシャノン距離や総変動距離などの確率分布にメトリックを使用できます。
これらはメトリックであるため、これは表現に擬似メトリクスを誘導します。これにより、線形読み取りに基づいて2つの表現がどれほど適切に区別できるかを測定します。
読み出しの重みとガウスノイズに関するガウスの事前の線形読み出しの場合、近似なしで(前後の)予測分布を分析的に計算できます。
これらの分布は、モデル内の表現の線形カーネルマトリックスのみに依存します。
したがって、ベイジアンメトリックは、中央カーネルアライメントや表現類似性分析などのカーネルベースのメトリックと線形読み出しベースの比較を接続します。
Imagenet-1Kで訓練された深いニューラルネットワークを使用して、それらを互いに比較し、自然シーンデータセットの小さなサブセットを使用して、新しい方法を実証します。
ベイジアンの比較は、既存のメトリックに広く同意しますが、より厳しいものです。
経験的には、評価は異なるランダム画像サンプルによって異なり、完全な不確実性情報で有益な結果をもたらします。
したがって、提案されたベイジアンメトリックは、表現を比較するためにツールキットをうまく拡張します。

要約(オリジナル)

Which neural networks are similar is a fundamental question for both machine learning and neuroscience. Here, I propose to base comparisons on the predictive distributions of linear readouts from intermediate representations. In Bayesian statistics, the prior predictive distribution is a full description of the inductive bias and generalization of a model, making it a great basis for comparisons. This distribution directly gives the evidence a dataset would provide in favor of the model. If we want to compare multiple models to each other, we can use a metric for probability distributions like the Jensen-Shannon distance or the total variation distance. As these are metrics, this induces pseudo-metrics for representations, which measure how well two representations could be distinguished based on a linear read out. For a linear readout with a Gaussian prior on the read-out weights and Gaussian noise, we can analytically compute the (prior and posterior) predictive distributions without approximations. These distributions depend only on the linear kernel matrix of the representations in the model. Thus, the Bayesian metrics connect linear read-out based comparisons to kernel based metrics like centered kernel alignment and representational similarity analysis. I demonstrate the new methods with deep neural networks trained on ImageNet-1k comparing them to each other and a small subset of the Natural Scenes Dataset. The Bayesian comparisons broadly agree with existing metrics, but are more stringent. Empirically, evaluations vary less across different random image samples and yield informative results with full uncertainty information. Thus the proposed Bayesian metrics nicely extend our toolkit for comparing representations.

arxiv情報

著者 Heiko H. Schütt
発行日 2025-02-19 17:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Bayesian Comparisons Between Representations はコメントを受け付けていません

Improving Probabilistic Diffusion Models With Optimal Diagonal Covariance Matching

要約

確率的拡散モデルは、さまざまなドメインで非常に効果的になりました。
通常、拡散モデルからのサンプリングには、学習された平均と固定または学習の共分散を持つガウスを特徴とする除去分布を使用することが含まれます。
この論文では、最近提案された共分散モーメントマッチングテクニックを活用し、対角線の共分散を学習するための新しい方法を導入します。
従来のデータ駆動型の対角線共分散近似アプローチとは異なり、私たちの方法では、最適な共分散マッチング(OCM)という名前の新しい偏見のない目的を使用して、最適な対角線分析共分散を直接回帰することが含まれます。
このアプローチは、共分散予測の近似誤差を大幅に減らすことができます。
私たちの方法が、サンプリング効率、リコール率、および一般的に使用される拡散モデルの可能性を大幅に向上させる方法を示します。

要約(オリジナル)

The probabilistic diffusion model has become highly effective across various domains. Typically, sampling from a diffusion model involves using a denoising distribution characterized by a Gaussian with a learned mean and either fixed or learned covariances. In this paper, we leverage the recently proposed covariance moment matching technique and introduce a novel method for learning the diagonal covariance. Unlike traditional data-driven diagonal covariance approximation approaches, our method involves directly regressing the optimal diagonal analytic covariance using a new, unbiased objective named Optimal Covariance Matching (OCM). This approach can significantly reduce the approximation error in covariance prediction. We demonstrate how our method can substantially enhance the sampling efficiency, recall rate and likelihood of commonly used diffusion models.

arxiv情報

著者 Zijing Ou,Mingtian Zhang,Andi Zhang,Tim Z. Xiao,Yingzhen Li,David Barber
発行日 2025-02-19 18:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Improving Probabilistic Diffusion Models With Optimal Diagonal Covariance Matching はコメントを受け付けていません

Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach

要約

透かしは、人間が作成したテキストとAIに生成されたテキストを区別するための重要な方法として浮上しています。
このホワイトペーパーでは、透かしスキームと検出プロセスの両方を共同で最適化する大規模な言語モデル(LLMS)を透かして透かして紹介するための新しい理論的枠組みを紹介します。
私たちのアプローチは、最悪の型タイプIエラーとテキストの歪みを制御しながら、検出パフォーマンスを最大化することに焦点を当てています。
\ emphing {普遍的に最小タイプIIエラー}を特徴づけ、透かしの検出可能性とテキストの歪みの間の基本的なトレードオフを示しています。
重要なことに、最適な透かしスキームがLLM生成分布に適応していることを特定します。
理論的な洞察に基づいて、Gumbel-Maxのトリックと一緒に代理モデルを利用して、効率的でモデルに依存しない、配布適応透過アルゴリズムを提案します。
LLAMA2-13BおよびMISTRAL-8 $ \ Times 70億ドルのモデルで行われた実験は、アプローチの有効性を確認します。
さらに、私たちのフレームワークに堅牢性を組み込むことを検討し、敵対的な攻撃により効果的に耐える将来の透かしシステムへの道を開いています。

要約(オリジナル)

Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. In this paper, we present a novel theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and the detection process. Our approach focuses on maximizing detection performance while maintaining control over the worst-case Type-I error and text distortion. We characterize \emph{the universally minimum Type-II error}, showing a fundamental trade-off between watermark detectability and text distortion. Importantly, we identify that the optimal watermarking schemes are adaptive to the LLM generative distribution. Building on our theoretical insights, we propose an efficient, model-agnostic, distribution-adaptive watermarking algorithm, utilizing a surrogate model alongside the Gumbel-max trick. Experiments conducted on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach. Additionally, we examine incorporating robustness into our framework, paving a way to future watermarking systems that withstand adversarial attacks more effectively.

arxiv情報

著者 Haiyun He,Yepeng Liu,Ziqiao Wang,Yongyi Mao,Yuheng Bu
発行日 2025-02-19 18:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.IT, cs.LG, math.IT | Theoretically Grounded Framework for LLM Watermarking: A Distribution-Adaptive Approach はコメントを受け付けていません

Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks

要約

データセット蒸留(DD)は、限られた量のメモリと計算で深いネットワークを効率的にトレーニングできる小さな合成データセットを生成します。
監視された学習のためのDDメソッドの成功にもかかわらず、ディープモデルの自己監視前のトレーニングのDDは依然として依然としてありません。
ラベル付けされていないデータの事前トレーニングは、限られたラベル付きデータを使用してダウンストリームタスクに効率的に一般化するために重要です。
この作業では、SSLプリトレーニングのための最初の効果的なDDメソッドを提案します。
まず、理論的および経験的に、SSL勾配の高い分散により、SSLへの監視されたDDメソッドの素朴な適用が失敗することを示します。
次に、知識蒸留(KD)の文献からの洞察に依存することにより、この問題に対処します。
具体的には、SSLで訓練されたより大きな教師モデルの表現に一致するように、小さな学生モデルを訓練します。
次に、学生モデルのトレーニング軌跡を一致させることにより、小さな合成データセットを生成します。
KD目的はSSLよりもかなり低い分散を持っているため、私たちのアプローチは、高品質のエンコーダーを事前に走行できる合成データセットを生成できます。
広範な実験を通じて、蒸留セットが、限られたラベル付きデータの存在下で、さまざまな下流タスクで、以前の作業よりも最大13%高い精度につながることを示しています。
https://github.com/bigml-cs-ucla/mkdtのコード。

要約(オリジナル)

Dataset distillation (DD) generates small synthetic datasets that can efficiently train deep networks with a limited amount of memory and compute. Despite the success of DD methods for supervised learning, DD for self-supervised pre-training of deep models has remained unaddressed. Pre-training on unlabeled data is crucial for efficiently generalizing to downstream tasks with limited labeled data. In this work, we propose the first effective DD method for SSL pre-training. First, we show, theoretically and empirically, that naive application of supervised DD methods to SSL fails, due to the high variance of the SSL gradient. Then, we address this issue by relying on insights from knowledge distillation (KD) literature. Specifically, we train a small student model to match the representations of a larger teacher model trained with SSL. Then, we generate a small synthetic dataset by matching the training trajectories of the student models. As the KD objective has considerably lower variance than SSL, our approach can generate synthetic datasets that can successfully pre-train high-quality encoders. Through extensive experiments, we show that our distilled sets lead to up to 13% higher accuracy than prior work, on a variety of downstream tasks, in the presence of limited labeled data. Code at https://github.com/BigML-CS-UCLA/MKDT.

arxiv情報

著者 Siddharth Joshi,Jiayi Ni,Baharan Mirzasoleiman
発行日 2025-02-19 18:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks はコメントを受け付けていません

Robotic Table Tennis: A Case Study into a High Speed Learning System

要約

私たちは、以前の研究では、人間と何百もの卓球集会が可能であり、ボールを望ましいターゲットに正確に戻す能力を持っていることが示された、現実世界のロボット学習システムに深く掘り下げます。
このシステムは、高度に最適化された知覚サブシステム、高速低遅延ロボットコントローラー、現実世界での損傷を防ぎ、ゼロショット転送のためのポリシーを訓練できるシミュレーションパラダイム、および自動運転を可能にする自動化された現実世界環境のリセットをまとめます。
物理ロボットのトレーニングと評価。
通常、広く普及していない多くの設計上の決定を含む完全なシステムの説明を補完します。さまざまなレイテンシのソースを軽減することの重要性、トレーニングおよび展開分布の変化、知覚システムの堅牢性、感度の堅牢性の説明の重要性を明確にする研究のコレクションを含む
ポリシーハイパーパラメーター、およびアクションスペースの選択。
システムのコンポーネントと実験結果の詳細を示すビデオは、https://youtu.be/ufcnwjb42i0にあります。

要約(オリジナル)

We present a deep-dive into a real-world robotic learning system that, in previous work, was shown to be capable of hundreds of table tennis rallies with a human and has the ability to precisely return the ball to desired targets. This system puts together a highly optimized perception subsystem, a high-speed low-latency robot controller, a simulation paradigm that can prevent damage in the real world and also train policies for zero-shot transfer, and automated real world environment resets that enable autonomous training and evaluation on physical robots. We complement a complete system description, including numerous design decisions that are typically not widely disseminated, with a collection of studies that clarify the importance of mitigating various sources of latency, accounting for training and deployment distribution shifts, robustness of the perception system, sensitivity to policy hyper-parameters, and choice of action space. A video demonstrating the components of the system and details of experimental results can be found at https://youtu.be/uFcnWjB42I0.

arxiv情報

著者 David B. D’Ambrosio,Jonathan Abelian,Saminda Abeyruwan,Michael Ahn,Alex Bewley,Justin Boyd,Krzysztof Choromanski,Omar Cortes,Erwin Coumans,Tianli Ding,Wenbo Gao,Laura Graesser,Atil Iscen,Navdeep Jaitly,Deepali Jain,Juhana Kangaspunta,Satoshi Kataoka,Gus Kouretas,Yuheng Kuang,Nevena Lazic,Corey Lynch,Reza Mahjourian,Sherry Q. Moore,Thinh Nguyen,Ken Oslund,Barney J Reed,Krista Reymann,Pannag R. Sanketi,Anish Shankar,Pierre Sermanet,Vikas Sindhwani,Avi Singh,Vincent Vanhoucke,Grace Vesom,Peng Xu
発行日 2025-02-19 18:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Robotic Table Tennis: A Case Study into a High Speed Learning System はコメントを受け付けていません

The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent

要約

浅いモデルと比較して勾配降下(GD)によって訓練された深いニューラルネットワークの利点を理解することは、未解決の理論的課題です。
高次元のガウスデータを使用したマルチインデックスモデルの研究により、カーネルに対するGDトレーニングを受けたニューラルネットワークの利点に関する分析的な洞察が提供されていますが、GDトレーニングネットワークのサンプルの複雑さと一般化における深さを改善する上での役割はまだ理解されていません。
このホワイトペーパーでは、潜在的な部分空間寸法の階層を組み込んだターゲット関数のクラス(単一およびマルチインデックスガウス階層ターゲット)を紹介します。
このフレームワークにより、高次元の制限の浅いネットワークと比較して、深いネットワークの学習ダイナミクスと一般化パフォーマンスを分析的に研究することができます。
具体的には、私たちの主な定理は、GDを使用した特徴学習が効果的な次元を減らし、高次元の問題を低次元の問題に変換することを示しています。
これにより、浅いネットワークよりも劇的に少ないサンプルでターゲット関数を学習することができます。
結果は制御されたトレーニング設定で証明されていますが、より一般的なトレーニング手順についても議論し、同じメカニズムを通じて学習すると主張します。
これらの発見は、深いネットワークで階層構造を学習する際の深さの重要な役割のさらなる定量的研究への道を開きます。

要約(オリジナル)

Understanding the advantages of deep neural networks trained by gradient descent (GD) compared to shallow models remains an open theoretical challenge. While the study of multi-index models with Gaussian data in high dimensions has provided analytical insights into the benefits of GD-trained neural networks over kernels, the role of depth in improving sample complexity and generalization in GD-trained networks remains poorly understood. In this paper, we introduce a class of target functions (single and multi-index Gaussian hierarchical targets) that incorporate a hierarchy of latent subspace dimensionalities. This framework enables us to analytically study the learning dynamics and generalization performance of deep networks compared to shallow ones in the high-dimensional limit. Specifically, our main theorem shows that feature learning with GD reduces the effective dimensionality, transforming a high-dimensional problem into a sequence of lower-dimensional ones. This enables learning the target function with drastically less samples than with shallow networks. While the results are proven in a controlled training setting, we also discuss more common training procedures and argue that they learn through the same mechanisms. These findings open the way to further quantitative studies of the crucial role of depth in learning hierarchical structures with deep networks.

arxiv情報

著者 Yatin Dandi,Luca Pesce,Lenka Zdeborová,Florent Krzakala
発行日 2025-02-19 18:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent はコメントを受け付けていません

Where’s the Bug? Attention Probing for Scalable Fault Localization

要約

コード関連のタスクでは、大規模な言語モデル(LLM)がますます能力があるにもかかわらず、コードの正確性を確保することは依然として困難な問題のままです。
LLMベースのプログラム修理システムは、ユーザーのバグレポートのみを使用してバグ修正を提案できますが、その有効性は、人間とLLMの両方にとって困難な問題である障害ローカリゼーション(FL)を実行する能力によって根本的に制限されます。
既存のFLアプローチは、実行可能なテストのケースに依存しており、費用がかかり、しばしば騒々しいラインレベルの注釈のトレーニングが必要です。
このホワイトペーパーでは、直接ローカリゼーションラベルなしで最先端の障害ローカリゼーションを学習し、従来のFLベースラインを上回り、大規模なLLMSのプロンプトを作成する方法を学習する方法であるバグ注意プローブ(BAP)を紹介します。
標準的な欠陥4Jデータセットからの実際のJavaバグや、バグタイプと言語の多様なセットに及ぶ他の7つのデータセットなど、さまざまなコード設定にわたるアプローチを評価します。
8つのデータセットすべてにわたって平均して、BAPは、最強のベースラインと比較して34.6%のTOP-1精度、ゼロショットよりも93.4%がGPT-4Oを促します。
また、BAPはプロンプトをプロンプトするよりもはるかに効率的であり、計算コストのごく一部で大きなオープンウェイトモデルを上回ります。

要約(オリジナル)

Ensuring code correctness remains a challenging problem even as large language models (LLMs) become increasingly capable at code-related tasks. While LLM-based program repair systems can propose bug fixes using only a user’s bug report, their effectiveness is fundamentally limited by their ability to perform fault localization (FL), a challenging problem for both humans and LLMs. Existing FL approaches rely on executable test cases, require training on costly and often noisy line-level annotations, or demand resource-intensive LLMs. In this paper, we present Bug Attention Probe (BAP), a method which learns state-of-the-art fault localization without any direct localization labels, outperforming traditional FL baselines and prompting of large-scale LLMs. We evaluate our approach across a variety of code settings, including real-world Java bugs from the standard Defects4J dataset as well as seven other datasets which span a diverse set of bug types and languages. Averaged across all eight datasets, BAP improves by 34.6% top-1 accuracy compared to the strongest baseline and 93.4% over zero-shot prompting GPT-4o. BAP is also significantly more efficient than prompting, outperforming large open-weight models at a small fraction of the computational cost.

arxiv情報

著者 Adam Stein,Arthur Wayne,Aaditya Naik,Mayur Naik,Eric Wong
発行日 2025-02-19 18:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | Where’s the Bug? Attention Probing for Scalable Fault Localization はコメントを受け付けていません