New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results

要約

PolyAKの階段化は、凸の最適化における基本的なステップサイズであることが証明されており、広範囲の仮定にわたって最適な勾配降下率を与えています。
Polyakの階段状の普遍性は、理論的保証と強力な経験的パフォーマンスを備えた多くの確率的バリアントにも影響を与えました。
多くの理論的結果にもかかわらず、収束特性とpolyakの継承またはそのバリアントの欠点の理解は、異なる分析で不完全で骨折しています。
私たちは、Polyakが代理損失の勾配降下として、Polyakの階段化とそのバリアントのための新しい、統一された、単純な視点を提案します。
各バリアントは、保証された局所曲率に適応するステップサイズを使用して、代理関数を最小限に抑えることと同等であることを示します。
次に、一般的な代理損失の視点を使用して、異なる仮定にわたる既存のバリアントの統一分析を提供します。
さらに、不均一な結果がいくつかの上限の結果が実際に現実であることを証明する多くの否定的な結果を示しています。

要約(オリジナル)

The Polyak stepsize has been proven to be a fundamental stepsize in convex optimization, giving near optimal gradient descent rates across a wide range of assumptions. The universality of the Polyak stepsize has also inspired many stochastic variants, with theoretical guarantees and strong empirical performance. Despite the many theoretical results, our understanding of the convergence properties and shortcomings of the Polyak stepsize or its variants is both incomplete and fractured across different analyses. We propose a new, unified, and simple perspective for the Polyak stepsize and its variants as gradient descent on a surrogate loss. We show that each variant is equivalent to minimize a surrogate function with stepsizes that adapt to a guaranteed local curvature. Our general surrogate loss perspective is then used to provide a unified analysis of existing variants across different assumptions. Moreover, we show a number of negative results proving that the non-convergence results in some of the upper bounds is indeed real.

arxiv情報

著者 Francesco Orabona,Ryan D’Orazio
発行日 2025-05-26 17:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results はコメントを受け付けていません

Gradient Flow Matching for Learning Update Dynamics in Neural Network Training

要約

深いニューラルネットワークのトレーニングは、勾配ベースの最適化のitera2の性質のために、計算集中のままです。
勾配フローマッチング(GFM)を提案します。これは、学習したオプティマイザー認識ベクターフィールドによって支配された動的システムとしてニューラルネットワークトレーニングを扱う連続時間モデリングフレームワークです。
条件付きフローマッチングを活用することにより、GFMはSGD、Adam、RMSPropなどのオプティマイザーの基礎となる更新ルールをキャプチャし、収束に向かって重量軌跡のスムーズな外挿を可能にします。
ブラックボックスシーケンスモデルとは異なり、GFMは、勾配ベースの更新の構造的知識を学習目標に組み込み、部分トレーニングシーケンスからの最終ウェイトの正確な予測を促進します。
経験的に、GFMは、変圧器ベースのモデルと競合する予測精度を達成し、LSTMやその他の古典的なベースラインを大幅に上回っています。
さらに、GFMはニューラルアーキテクチャと初期化全体に一般化され、最適化ダイナミクスを研究し、収束予測を加速するための統一されたフレームワークを提供します。

要約(オリジナル)

Training deep neural networks remains computationally intensive due to the itera2 tive nature of gradient-based optimization. We propose Gradient Flow Matching (GFM), a continuous-time modeling framework that treats neural network training as a dynamical system governed by learned optimizer-aware vector fields. By leveraging conditional flow matching, GFM captures the underlying update rules of optimizers such as SGD, Adam, and RMSprop, enabling smooth extrapolation of weight trajectories toward convergence. Unlike black-box sequence models, GFM incorporates structural knowledge of gradient-based updates into the learning objective, facilitating accurate forecasting of final weights from partial training sequences. Empirically, GFM achieves forecasting accuracy that is competitive with Transformer-based models and significantly outperforms LSTM and other classical baselines. Furthermore, GFM generalizes across neural architectures and initializations, providing a unified framework for studying optimization dynamics and accelerating convergence prediction.

arxiv情報

著者 Xiao Shou,Yanna Ding,Jianxi Gao
発行日 2025-05-26 17:03:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Gradient Flow Matching for Learning Update Dynamics in Neural Network Training はコメントを受け付けていません

Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects

要約

自然言語処理における大規模な言語モデルの急速な進化により、セマンティックな理解と論理的推論能力が大幅に向上しました。
このような能力は、自律的な駆動システムで活用されており、システムパフォーマンスの大幅な改善に貢献しています。
Openai O1やDeepseek-R1などのモデルは、人間の思考プロセスをシミュレートする高度な認知方法であるレバレッジチェーン思考(COT)推論であり、複雑なタスクの顕著な推論能力を示しています。
体系的な推論フレームワーク内で複雑な駆動シナリオを構築することにより、このアプローチは自律運転における顕著な研究の焦点として浮上し、困難なケースを処理するシステムの能力を大幅に改善しています。
このペーパーでは、COT方法が自律運転モデル​​の推論能力をどのように改善するかを調査します。
包括的な文献レビューに基づいて、自律運転におけるCOTの動機、方法論、課題、および将来の研究方向の体系的な分析を提示します。
さらに、運転システムの自己進化を促進するために、COTを自己学習と組み合わせるという洞察を提案します。
この研究の関連性と適時性を確保するために、文献とオープンソースプロジェクトの動的なリポジトリをまとめて、最前線の開発を組み込むために熱心に更新されました。
リポジトリは、https://github.com/cuiyx1720/awesome-cot4adで公開されています。

要約(オリジナル)

The rapid evolution of large language models in natural language processing has substantially elevated their semantic understanding and logical reasoning capabilities. Such proficiencies have been leveraged in autonomous driving systems, contributing to significant improvements in system performance. Models such as OpenAI o1 and DeepSeek-R1, leverage Chain-of-Thought (CoT) reasoning, an advanced cognitive method that simulates human thinking processes, demonstrating remarkable reasoning capabilities in complex tasks. By structuring complex driving scenarios within a systematic reasoning framework, this approach has emerged as a prominent research focus in autonomous driving, substantially improving the system’s ability to handle challenging cases. This paper investigates how CoT methods improve the reasoning abilities of autonomous driving models. Based on a comprehensive literature review, we present a systematic analysis of the motivations, methodologies, challenges, and future research directions of CoT in autonomous driving. Furthermore, we propose the insight of combining CoT with self-learning to facilitate self-evolution in driving systems. To ensure the relevance and timeliness of this study, we have compiled a dynamic repository of literature and open-source projects, diligently updated to incorporate forefront developments. The repository is publicly available at https://github.com/cuiyx1720/Awesome-CoT4AD.

arxiv情報

著者 Yixin Cui,Haotian Lin,Shuo Yang,Yixiao Wang,Yanjun Huang,Hong Chen
発行日 2025-05-26 17:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects はコメントを受け付けていません

A Temporal Difference Method for Stochastic Continuous Dynamics

要約

ODEやSDEなどの動的方程式によってモデル化された連続システムの場合、ベルマンの最適性の原理は、補強学習(RL)の理論的ターゲットを提供するハミルトン・ジャコビ・ベルマン(HJB)方程式の形をとっています。
RLの最近の進歩はこの定式化をうまく活用していますが、既存の方法は通常、HJB方程式に従って値関数を更新するためにダイナミカル方程式の係数関数への明示的なアクセスが必要であるため、基礎となるダイナミクスが先験的に既知であると想定しています。
HJBベースのRLのこの固有の制限に対処します。
HJB方程式をターゲットにしたモデルフリーのアプローチを提案し、対応する時間差法を提案します。
定性的および経験的に、遷移カーネルベースの製剤よりもその潜在的な利点を示します。
提案された定式化は、確率的最適制御とモデルのない強化学習を橋渡しするための道を開きます。

要約(オリジナル)

For continuous systems modeled by dynamical equations such as ODEs and SDEs, Bellman’s principle of optimality takes the form of the Hamilton-Jacobi-Bellman (HJB) equation, which provides the theoretical target of reinforcement learning (RL). Although recent advances in RL successfully leverage this formulation, the existing methods typically assume the underlying dynamics are known a priori because they need explicit access to the coefficient functions of dynamical equations to update the value function following the HJB equation. We address this inherent limitation of HJB-based RL; we propose a model-free approach still targeting the HJB equation and propose the corresponding temporal difference method. We demonstrate its potential advantages over transition kernel-based formulations, both qualitatively and empirically. The proposed formulation paves the way toward bridging stochastic optimal control and model-free reinforcement learning.

arxiv情報

著者 Haruki Settai,Naoya Takeishi,Takehisa Yairi
発行日 2025-05-26 17:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Temporal Difference Method for Stochastic Continuous Dynamics はコメントを受け付けていません

RedAHD: Reduction-Based End-to-End Automatic Heuristic Design with Large Language Models

要約

NPハードの組み合わせ最適化問題(COP)(たとえば、巡回セールスマンの問題(TSP)および容認された車両ルーティングの問題(CVRP))を実際に解決するには、伝統的に手作業のヒューリスティックを作成するか、効果的なヒューリスティックを見つけるための検索スペースの指定が含まれます。
ただし、これらのアプローチからの主な課題は、人間の専門家に必要なドメインの知識と実装の取り組みの膨大な量です。
最近、特に大規模な言語モデル(LLM)を使用して、いくつかの事前に決められた一般的なアルゴリズムフレームワーク(GAF、ANTコロニーの最適化とガイド付きローカル検索)内でヒューリスティックを設計することにより、これらの課題に対処するための大きな進歩が遂行されました。
このアイデアを活用する既存の方法は、印象的な最適化パフォーマンスをもたらすことが示されていますが、エンドツーエンドではなく、かなりの手動介入が必要です。
この論文では、これらのLLMベースのヒューリスティック設計方法がGAFを必要とせずに動作できるようにするRedahdという名前の新しいエンドツーエンドフレームワークを提案します。
より具体的には、RedahdはLLMSを採用して還元プロセスを自動化します。つまり、LLMベースのヒューリスティックな設計方法から、LLMベースのヒューリスティックデザイン方法を、変換されたCOPを直接解決するための効果的なヒューリスティックを設計し、順番に元のCOPを間接的に解決するための効果的なヒューリスティックを設計することができます。
6人の警官で評価された実験結果は、Redahdが最小限の人間の関与を伴う最先端の方法で競争力のあるまたは改善された結果を伴うヒューリスティックを設計できることを示しています。

要約(オリジナル)

Solving NP-hard combinatorial optimization problems (COPs) (e.g., traveling salesman problems (TSPs) and capacitated vehicle routing problems (CVRPs)) in practice traditionally involves handcrafting heuristics or specifying a search space for finding effective heuristics. The main challenges from these approaches, however, are the sheer amount of domain knowledge and implementation efforts required from human experts. Recently, significant progress has been made to address these challenges, particularly by using large language models (LLMs) to design heuristics within some predetermined generalized algorithmic framework (GAF, e.g., ant colony optimization and guided local search) for building key functions/components (e.g., a priori information on how promising it is to include each edge in a solution for TSP and CVRP). Although existing methods leveraging this idea have shown to yield impressive optimization performance, they are not fully end-to-end and still require considerable manual interventions. In this paper, we propose a novel end-to-end framework, named RedAHD, that enables these LLM-based heuristic design methods to operate without the need of GAFs. More specifically, RedAHD employs LLMs to automate the process of reduction, i.e., transforming the COP at hand into similar COPs that are better-understood, from which LLM-based heuristic design methods can design effective heuristics for directly solving the transformed COPs and, in turn, indirectly solving the original COP. Our experimental results, evaluated on six COPs, show that RedAHD is capable of designing heuristics with competitive or improved results over the state-of-the-art methods with minimal human involvement.

arxiv情報

著者 Nguyen Thach,Aida Riahifar,Nathan Huynh,Hau Chan
発行日 2025-05-26 17:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | RedAHD: Reduction-Based End-to-End Automatic Heuristic Design with Large Language Models はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約

このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT 2025)、低リソース言語トラック、つまりベンバから英語への音声翻訳のためのシステムへのシステムの提出について説明します。
WhisperとNLLB-200に基づいてカスケードされた音声翻訳システムを構築し、逆翻訳などのデータ増強技術を採用しました。
合成データを使用する効果を調査し、実験セットアップについて説明します。

要約(オリジナル)

This paper describes our system submission to the International Conference on Spoken Language Translation (IWSLT 2025), low-resource languages track, namely for Bemba-to-English speech translation. We built cascaded speech translation systems based on Whisper and NLLB-200, and employed data augmentation techniques, such as back-translation. We investigate the effect of using synthetic data and discuss our experimental setup.

arxiv情報

著者 Muhammad Hazim Al Farouq,Aman Kassahun Wassie,Yasmin Moslem
発行日 2025-05-26 14:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

要約

大規模な言語モデル(LLMS)は、正式な仕様を生成することにより、自動化された推論を民主化するための顕著な約束を示しています。
ただし、基本的な緊張が存在します。LLMは確率的であり、正式な検証は決定論的保証を要求します。
このペーパーでは、LLMが生成した正式なアーティファクトにおける故障モードと不確実性の定量化(UQ)を包括的に調査することにより、この認識論的ギャップに対処します。
5つのフロンティアLLMの体系的な評価により、満足度モジュロ理論(SMT)ベースのオートフォーマル化のドメイン固有の精度に対するドメイン固有の影響(論理タスクの +34.8%から事実のものの-44.5%まで)が明らかになり、これらのエラーを特定するために誤って誤っている確率のエントロピーのような既知のUQ技術があります。
LLM出力をモデル化するために、確率的コンテキストのない文法(PCFG)フレームワークを導入し、洗練された不確実性分類法を生み出します。
不確実性シグナルはタスクに依存していることがわかります(たとえば、論理の文法エントロピー、AUROC> 0.93)。
最後に、これらの信号の軽量の融合により、選択的検証が可能になり、最小限の棄権でエラー(14-100%)を大幅に削減し、LLM駆動型の形式化を信頼できるエンジニアリング分野に変換します。

要約(オリジナル)

Large language models (LLMs) show remarkable promise for democratizing automated reasoning by generating formal specifications. However, a fundamental tension exists: LLMs are probabilistic, while formal verification demands deterministic guarantees. This paper addresses this epistemological gap by comprehensively investigating failure modes and uncertainty quantification (UQ) in LLM-generated formal artifacts. Our systematic evaluation of five frontier LLMs reveals Satisfiability Modulo Theories (SMT) based autoformalization’s domain-specific impact on accuracy (from +34.8% on logical tasks to -44.5% on factual ones), with known UQ techniques like the entropy of token probabilities failing to identify these errors. We introduce a probabilistic context-free grammar (PCFG) framework to model LLM outputs, yielding a refined uncertainty taxonomy. We find uncertainty signals are task-dependent (e.g., grammar entropy for logic, AUROC>0.93). Finally, a lightweight fusion of these signals enables selective verification, drastically reducing errors (14-100%) with minimal abstention, transforming LLM-driven formalization into a reliable engineering discipline.

arxiv情報

著者 Debargha Ganguly,Vikash Singh,Sreehari Sankar,Biyao Zhang,Xuecen Zhang,Srinivasan Iyengar,Xiaotian Han,Amit Sharma,Shivkumar Kalyanaraman,Vipin Chaudhary
発行日 2025-05-26 14:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO, cs.SE | Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks はコメントを受け付けていません

MVP: Multi-source Voice Pathology detection

要約

音声障害は、患者の生活の質に大きな影響を与えますが、病的な音声データの希少性と記録源の変動の両方のため、非侵襲的な自動診断には依存していないままです。
この作業では、生の音声信号を直接動作するトランスを活用する新しいアプローチであるMVP(マルチソース音声病理検出)を紹介します。
文の読み取りと持続的な母音記録を組み合わせて、波形連結、中間特徴融合、および意思決定レベルの組み合わせを組み合わせて、3つの融合戦略を探ります。
ドイツ語、ポルトガル語、イタリア語での経験的検証は、トランスを使用した中間特徴融合が両方の記録タイプの補完的な特性を最もよく捉えることを示しています。
私たちのアプローチは、シングルソース方法よりも最大13%のAUC改善を達成しています。

要約(オリジナル)

Voice disorders significantly impact patient quality of life, yet non-invasive automated diagnosis remains under-explored due to both the scarcity of pathological voice data, and the variability in recording sources. This work introduces MVP (Multi-source Voice Pathology detection), a novel approach that leverages transformers operating directly on raw voice signals. We explore three fusion strategies to combine sentence reading and sustained vowel recordings: waveform concatenation, intermediate feature fusion, and decision-level combination. Empirical validation across the German, Portuguese, and Italian languages shows that intermediate feature fusion using transformers best captures the complementary characteristics of both recording types. Our approach achieves up to +13% AUC improvement over single-source methods.

arxiv情報

著者 Alkis Koudounas,Moreno La Quatra,Gabriele Ciravegna,Marco Fantini,Erika Crosetti,Giovanni Succo,Tania Cerquitelli,Sabato Marco Siniscalchi,Elena Baralis
発行日 2025-05-26 14:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | MVP: Multi-source Voice Pathology detection はコメントを受け付けていません

‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding

要約

機械学習モデルから特定の情報を効率的に削除するプロセスであるマシンの未学習は、責任あるAIにとって成長する関心分野です。
ただし、複雑なタスク、特に音声関連のタスクに対する未解決の方法の有効性を調査した研究はほとんどありません。
このペーパーでは、4つの言語に及ぶ4つのデータセットに焦点を当てた、音声言語理解(SLU)のマシンの最初のベンチマークであるUnslu-Benchを紹介します。
特定のスピーカーからのデータの解除に、「忘れられる権利」の潜在的な品質を評価する方法として対処します。
8つの学習技術を評価し、その有効性、有用性、および効率を同時にキャプチャするために、新しいメトリックを提案します。
Unslu-Benchは、SLUでの学習の基盤を設定し、さまざまな手法の有効性と計算可能性に大きな違いを明らかにしています。

要約(オリジナル)

Machine unlearning, the process of efficiently removing specific information from machine learning models, is a growing area of interest for responsible AI. However, few studies have explored the effectiveness of unlearning methods on complex tasks, particularly speech-related ones. This paper introduces UnSLU-BENCH, the first benchmark for machine unlearning in spoken language understanding (SLU), focusing on four datasets spanning four languages. We address the unlearning of data from specific speakers as a way to evaluate the quality of potential ‘right to be forgotten’ requests. We assess eight unlearning techniques and propose a novel metric to simultaneously better capture their efficacy, utility, and efficiency. UnSLU-BENCH sets a foundation for unlearning in SLU and reveals significant differences in the effectiveness and computational feasibility of various techniques.

arxiv情報

著者 Alkis Koudounas,Claudio Savelli,Flavio Giobergia,Elena Baralis
発行日 2025-05-26 14:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | ‘Alexa, can you forget me?’ Machine Unlearning Benchmark in Spoken Language Understanding はコメントを受け付けていません

SAEs Are Good for Steering — If You Select the Right Features

要約

スパース自動エンコーダー(SAE)は、モデルの潜在空間の分解を学ぶための監視されていないアプローチとして提案されています。
これにより、ラベル付きデータを必要とせずに、ステアリングなどの有用なアプリケーションが、モデルの出力に目的の概念に影響を与えることを可能にします。
現在の方法では、それらをアクティブ化する入力トークンを分析することにより、SAE機能を操作する機能を識別します。
ただし、最近の研究では、アクティベーションだけでは、モデルの出力に対する機能の効果を完全に説明していないことが強調されています。
この作業では、主にモデルの入力にパターンをキャプチャする入力機能と、モデルの出力に人間が理解できる効果を持つ出力機能の2つのタイプの機能を区別します。
これらのタイプの機能を特徴付けて特定するために、入力スコアと出力スコアを提案し、両方のスコアの高い値が同じ機能でめったに共存しないことを示します。
これらの発見には実際的な意味があります。出力スコアが低い機能を除外した後、SAEを操縦するときに2〜3倍の改善を獲得し、監視された方法と競争します。

要約(オリジナル)

Sparse Autoencoders (SAEs) have been proposed as an unsupervised approach to learn a decomposition of a model’s latent space. This enables useful applications such as steering – influencing the output of a model towards a desired concept – without requiring labeled data. Current methods identify SAE features to steer by analyzing the input tokens that activate them. However, recent work has highlighted that activations alone do not fully describe the effect of a feature on the model’s output. In this work, we draw a distinction between two types of features: input features, which mainly capture patterns in the model’s input, and output features, which have a human-understandable effect on the model’s output. We propose input and output scores to characterize and locate these types of features, and show that high values for both scores rarely co-occur in the same features. These findings have practical implications: after filtering out features with low output scores, we obtain 2-3x improvements when steering with SAEs, making them competitive with supervised methods.

arxiv情報

著者 Dana Arad,Aaron Mueller,Yonatan Belinkov
発行日 2025-05-26 14:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SAEs Are Good for Steering — If You Select the Right Features はコメントを受け付けていません