LiPo: A Lightweight Post-optimization Framework for Smoothing Action Chunks Generated by Learned Policies

要約

模倣学習の最近の進歩により、ロボットは非構造化された環境でますます複雑な操作タスクを実行することができました。
ただし、学んだポリシーのほとんどは、離散アクションチャンキングに依存しており、これはチャンク境界で不連続性を導入します。
これらの不連続性は動きの質を低下させ、勢いの伝達やシステムの安定性に滑らかな軌跡が重要な重い物体の投げや持ち上げなどの動的なタスクで特に問題があります。
この作業では、チャンクされたアクションシーケンスを滑らかにするための軽量化後のフレームワークを提示します。
私たちの方法では、3つの重要なコンポーネントを組み合わせています。(1)重複するチャンクを積極的に生成し、推論の遅延からの一時停止を回避するための推論を意識したチャンクスケジューリング。
(2)オーバーラップ領域での線形ブレンドは、突然の遷移を減らす。
(3)境界のある摂動スペース内で制約されるジャークを最小化する軌道最適化。
提案された方法は、動的操作タスクを実行する位置制御されたロボットアームで検証されました。
実験結果は、私たちのアプローチが振動とモーションジッターを大幅に減らし、より滑らかな実行と機械的堅牢性の向上につながることを示しています。

要約(オリジナル)

Recent advances in imitation learning have enabled robots to perform increasingly complex manipulation tasks in unstructured environments. However, most learned policies rely on discrete action chunking, which introduces discontinuities at chunk boundaries. These discontinuities degrade motion quality and are particularly problematic in dynamic tasks such as throwing or lifting heavy objects, where smooth trajectories are critical for momentum transfer and system stability. In this work, we present a lightweight post-optimization framework for smoothing chunked action sequences. Our method combines three key components: (1) inference-aware chunk scheduling to proactively generate overlapping chunks and avoid pauses from inference delays; (2) linear blending in the overlap region to reduce abrupt transitions; and (3) jerk-minimizing trajectory optimization constrained within a bounded perturbation space. The proposed method was validated on a position-controlled robotic arm performing dynamic manipulation tasks. Experimental results demonstrate that our approach significantly reduces vibration and motion jitter, leading to smoother execution and improved mechanical robustness.

arxiv情報

著者 Dongwoo Son,Suhan Park
発行日 2025-06-05 15:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Fabrica: Dual-Arm Assembly of General Multi-Part Objects via Integrated Planning and Learning

要約

マルチパートアセンブリは、ロボットが複雑な形状を越えて一般化を伴う長距離、接触豊富な操作を実行するための重要な課題をもたらします。
一般的なマルチパートオブジェクトの自律的なアセンブリのエンドツーエンドの計画と制御が可能なデュアルアームロボットシステムであるFabricaを提示します。
長い視野を越えて計画するために、自動化されたフィクスチャの生成を使用した優先順位、シーケンス、把持、およびモーション計画の階層を開発し、デュアルアームロボットで一般的なマルチステップアセンブリを可能にします。
プランナーは、平行化可能な設計により効率的になり、下流の制御安定性のために最適化されています。
連絡先の豊富なアセンブリの手順については、計画から得られた等掘りと残留アクションに導かれた、オブジェクトのジオメトリ、アセンブリの方向、および把握ポーズを越えて一般主義者のポリシーを訓練する軽量の強化学習フレームワークを提案します。
これらのポリシーは、ゼロショットを現実の世界に転送し、80%の成功したステップを達成します。
体系的な評価のために、多様なカテゴリとジオメトリにまたがる産業および毎日のオブジェクトに似たマルチパートアセンブリのベンチマークスイートを提案します。
効率的なグローバルな計画と堅牢なローカルコントロールを統合することにより、ドメインの知識や人間のデモンストレーションなしで、完全で一般化可能な現実世界のマルチパートアセンブリを実現するための最初のシステムを紹介します。
プロジェクトWebサイト:http://fabrica.csail.mit.edu/

要約(オリジナル)

Multi-part assembly poses significant challenges for robots to execute long-horizon, contact-rich manipulation with generalization across complex geometries. We present Fabrica, a dual-arm robotic system capable of end-to-end planning and control for autonomous assembly of general multi-part objects. For planning over long horizons, we develop hierarchies of precedence, sequence, grasp, and motion planning with automated fixture generation, enabling general multi-step assembly on any dual-arm robots. The planner is made efficient through a parallelizable design and is optimized for downstream control stability. For contact-rich assembly steps, we propose a lightweight reinforcement learning framework that trains generalist policies across object geometries, assembly directions, and grasp poses, guided by equivariance and residual actions obtained from the plan. These policies transfer zero-shot to the real world and achieve 80% successful steps. For systematic evaluation, we propose a benchmark suite of multi-part assemblies resembling industrial and daily objects across diverse categories and geometries. By integrating efficient global planning and robust local control, we showcase the first system to achieve complete and generalizable real-world multi-part assembly without domain knowledge or human demonstrations. Project website: http://fabrica.csail.mit.edu/

arxiv情報

著者 Yunsheng Tian,Joshua Jacob,Yijiang Huang,Jialiang Zhao,Edward Gu,Pingchuan Ma,Annan Zhang,Farhad Javid,Branden Romero,Sachin Chitta,Shinjiro Sueda,Hui Li,Wojciech Matusik
発行日 2025-06-05 15:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

AquaticVision: Benchmarking Visual SLAM in Underwater Environment with Events and Frames

要約

オフショア資産検査などの多くの水中アプリケーションは、目視検査と詳細な3D再建に依存しています。
水生環境向けの水中ビジュアルスラムシステムにおける最近の進歩は、海洋ロボットの研究で大きな注目を集めています。
ただし、既存の水中の視覚的なスラムデータセットにはグラウンドトゥルース軌道データが欠けていることが多く、定性的な結果またはCOLMAP再構成のみに基づいて、異なるスラムアルゴリズムのパフォーマンスを客観的に比較することが困難です。
このホワイトペーパーでは、モーションキャプチャシステムを使用して取得したグラウンドトゥルース軌道データを含む新しい水中データセットを紹介します。
さらに、初めて、水中の視覚的ポジショニングをベンチマークするためのイベントとフレームの両方を含む視覚データをリリースします。
イベントカメラデータを提供することにより、より堅牢で高度な水中視覚スラムアルゴリズムの開発を促進することを目指しています。
イベントカメラの使用は、非常に低い光またはぼんやりとした水中条件によってもたらされる課題を軽減するのに役立ちます。
データセットのWebページはhttps://sites.google.com/view/aquaticvision-liasです。

要約(オリジナル)

Many underwater applications, such as offshore asset inspections, rely on visual inspection and detailed 3D reconstruction. Recent advancements in underwater visual SLAM systems for aquatic environments have garnered significant attention in marine robotics research. However, existing underwater visual SLAM datasets often lack groundtruth trajectory data, making it difficult to objectively compare the performance of different SLAM algorithms based solely on qualitative results or COLMAP reconstruction. In this paper, we present a novel underwater dataset that includes ground truth trajectory data obtained using a motion capture system. Additionally, for the first time, we release visual data that includes both events and frames for benchmarking underwater visual positioning. By providing event camera data, we aim to facilitate the development of more robust and advanced underwater visual SLAM algorithms. The use of event cameras can help mitigate challenges posed by extremely low light or hazy underwater conditions. The webpage of our dataset is https://sites.google.com/view/aquaticvision-lias.

arxiv情報

著者 Yifan Peng,Yuze Hong,Ziyang Hong,Apple Pui-Yi Chui,Junfeng Wu
発行日 2025-06-05 16:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Understanding and Mitigating Network Latency Effect on Teleoperated-Robot with Extended Reality

要約

拡張された現実(XRテレオ操作)を備えたロボットテレオペレーションにより、リモートロボットがリアルタイムの3Dフィードバックでユーザーのモーションを模倣できるようにすることにより、直感的な相互作用が可能になります。
ただし、既存のシステムは、大幅な動きへの動き(M2M)のレイテンシに直面しています。これは、ユーザーの最新の動きと対応するロボットフィードバックの間の遅延 – 高い視聴エラーとミッション完了時間を導きます。
この問題は、システムがネットワーク通信に排他的に依存していることに起因しており、ネットワークの劣化に対して非常に脆弱です。
これらの課題に対処するために、ネットワーク依存関係からロボットコントロールとXRの視覚化を切り離す最初のエンドツーエンドで完全にオープンソースのXRテレオ操作フレームワークであるTelexRを紹介します。
TELEXRはローカルセンシングデータを活用して、対応物の遅延情報または欠落した情報を再構築し、それによりネットワーク誘導の問題を大幅に削減します。
このアプローチにより、XRとロボットの両方が、高いロボット計画の精度を維持しながら、ネットワーク伝送と同時に実行できます。
TelexRは、GPUの競合と帯域幅に適合するポイントクラウドを緩和するための競合を意識したスケジューリングも特徴としており、限られた帯域幅に対処します。

要約(オリジナル)

Robot teleoperation with extended reality (XR teleoperation) enables intuitive interaction by allowing remote robots to mimic user motions with real-time 3D feedback. However, existing systems face significant motion-to-motion (M2M) latency–the delay between the user’s latest motion and the corresponding robot feedback–leading to high teleoperation error and mission completion time. This issue stems from the system’s exclusive reliance on network communication, making it highly vulnerable to network degradation. To address these challenges, we introduce TeleXR, the first end-to-end, fully open-sourced XR teleoperation framework that decouples robot control and XR visualization from network dependencies. TeleXR leverages local sensing data to reconstruct delayed or missing information of the counterpart, thereby significantly reducing network-induced issues. This approach allows both the XR and robot to run concurrently with network transmission while maintaining high robot planning accuracy. TeleXR also features contention-aware scheduling to mitigate GPU contention and bandwidth-adaptive point cloud scaling to cope with limited bandwidth.

arxiv情報

著者 Ziliang Zhang,Cong Liu,Hyoseung Kim
発行日 2025-06-05 16:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.NI, cs.RO | コメントする

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

要約

オフライン強化学習(RL)は、事前に収集されたデータを活用することにより、予想される合計報酬を最大化するために、動的環境で最適なポリシーを見つけることを目的としています。
不均一なデータから学ぶことは、オフラインRLの基本的な課題の1つです。
従来の方法は、単一のエピソードまたは均質なバッチエピソードから事前に収集されたデータを持つすべての個人に最適なポリシーを学ぶことに焦点を当てているため、異種集団の最適ではないポリシーをもたらす可能性があります。
この論文では、不均一なタイムステーションマルコフ決定プロセス(MDP)の個別のオフラインポリシー最適化フレームワークを提案します。
個々の潜在変数を備えた提案された不均一モデルにより、個々のQ関数を効率的に推定することができ、ペナルティを科された悲観的なパーソナライズされたポリシー学習(P4L)アルゴリズムは、行動ポリシーに関する弱い部分的なカバレッジ仮定の下での平均後悔の高速レートを保証します。
さらに、シミュレーション研究と実際のデータアプリケーションは、既存の方法と比較して提案された方法の優れた数値性能を示しています。

要約(オリジナル)

Offline reinforcement learning (RL) aims to find optimal policies in dynamic environments in order to maximize the expected total rewards by leveraging pre-collected data. Learning from heterogeneous data is one of the fundamental challenges in offline RL. Traditional methods focus on learning an optimal policy for all individuals with pre-collected data from a single episode or homogeneous batch episodes, and thus, may result in a suboptimal policy for a heterogeneous population. In this paper, we propose an individualized offline policy optimization framework for heterogeneous time-stationary Markov decision processes (MDPs). The proposed heterogeneous model with individual latent variables enables us to efficiently estimate the individual Q-functions, and our Penalized Pessimistic Personalized Policy Learning (P4L) algorithm guarantees a fast rate on the average regret under a weak partial coverage assumption on behavior policies. In addition, our simulation studies and a real data application demonstrate the superior numerical performance of the proposed method compared with existing methods.

arxiv情報

著者 Rui Miao,Babak Shahbaba,Annie Qu
発行日 2025-06-05 16:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Learning Theory of Decentralized Robust Kernel-Based Learning Algorithm

要約

接続されたグラフとして表現できるネットワーク化されたシステムを利用することにより、カーネルヒルベルトスペース(RKHS)を再現するフレームワーク内で、新しい分散型の堅牢なカーネルベースの学習アルゴリズムを提案します。
堅牢な損失関数$ \ mathcal {l} _ \ sigma $ windowing関数$ w $と堅牢性スケーリングパラメーター$ \ sigma> 0 $によって誘導され、幅広い堅牢な損失を含むことができます。
その結果、提案されたアルゴリズムは、既存の分散型堅牢なカーネル学習スキームと基本的に異なる堅牢な回帰のための統一された分散学習フレームワークを効果的に提供します。
学習理論を厳密に確立し、アルゴリズムの包括的な収束分析を提供します。
分散型アルゴリズムから生成された各局所的な堅牢な推定器を使用して、回帰関数に近似できることを示します。
カーネルベースの積分演算子手法に基づいて、それぞれ平均平方距離、RKHSノルム、および一般化誤差に関して、各ローカル近似シーケンスの一般的な高信頼性収束境界を導き出します。
さらに、ローカルサンプルサイズの厳密な選択ルールを提供し、適切に選択されたステップサイズとスケーリングパラメーター$ \ sigma $の下で、分散型の堅牢なアルゴリズムが両方の規範で最適な学習率(対数因子まで)を達成できることを示します。
パラメーター$ \ sigma $は、堅牢性を向上させながら好ましい収束動作を確保するために不可欠であることが示されています。
地方分権化、サンプル選択、アルゴリズムの堅牢性、およびその収束間の固有のつながりが明確に反映されています。

要約(オリジナル)

We propose a new decentralized robust kernel-based learning algorithm within the framework of reproducing kernel Hilbert space (RKHS) by utilizing a networked system that can be represented as a connected graph. The robust loss function $\mathcal{L}_\sigma$ induced by a windowing function $W$ and a robustness scaling parameter $\sigma>0$, can encompass a broad spectrum of robust losses. Consequently, the proposed algorithm effectively provides a unified decentralized learning framework for robust regression, which fundamentally differs from the existing distributed robust kernel learning schemes, all of which are divide-and-conquer based. We rigorously establish the learning theory and offer a comprehensive convergence analysis for the algorithm. We show each local robust estimator generated from the decentralized algorithm can be utilized to approximate the regression function. Based on kernel-based integral operator techniques, we derive general high confidence convergence bounds for each local approximating sequence in terms of the mean square distance, RKHS norm, and generalization error, respectively. Moreover, we provide rigorous selection rules for local sample size and show that, under properly selected step size and scaling parameter $\sigma$, the decentralized robust algorithm can achieve optimal learning rates (up to logarithmic factors) in both norms. The parameter $\sigma$ is shown to be essential for enhancing robustness while also ensuring favorable convergence behavior. The intrinsic connection among decentralization, sample selection, robustness of the algorithm, and its convergence is clearly reflected.

arxiv情報

著者 Zhan Yu
発行日 2025-06-05 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values

要約

Shapleyの値は、機械学習モデルによって行われる決定にどの機能に影響を与えるかを説明するための重要なツールとして浮上しています。
ただし、正確なShapley値を計算することは困難であり、通常、モデル評価の数の(特徴的なディメンション)数が必要です。
これに対処するために、多くのモデルに依存しないランダム化推定器が開発されており、最も影響力があり広く使用されているのはカーネルシェップ法です(Lundberg&Lee、2017)。
偏りのないカーネルシャップ(Covert&Lee、2021)やLeverageshap(Musco&Witter、2025)などの関連推定量は、理論的保証を満たすことが知られていますが、Kernelshapの境界はとらえどころのないままです。
カーネルシャップと、交換サンプリング戦略の有無にかかわらず構築された関連する推定器を含む広範で統一されたフレームワークについて説明します。
次に、私たちのフレームワークからのすべての推定器に適用される強力な非アサイクティック理論的保証を証明します。
これは、私たちの知る限り、kernelshapの最初の理論的保証と、既存の推定器間のトレードオフにさらに光を当てることを提供します。
意思決定ツリーモデルの小型および中寸法データセットの包括的なベンチマークを通じて、正確なShapley値に対してアプローチを検証し、控えめなサンプルサイズで低平均2乗エラーを一貫して達成します。
さらに、高次元データセットに対するメソッドのスケーラビリティを可能にするために、特定の実装の改善を行います。
MnistやCIFAR10などのデータセットでテストされたメソッドは、Kernelshapライブラリと比較して、一貫してより良い結果を提供します。

要約(オリジナル)

Shapley values have emerged as a critical tool for explaining which features impact the decisions made by machine learning models. However, computing exact Shapley values is difficult, generally requiring an exponential (in the feature dimension) number of model evaluations. To address this, many model-agnostic randomized estimators have been developed, the most influential and widely used being the KernelSHAP method (Lundberg & Lee, 2017). While related estimators such as unbiased KernelSHAP (Covert & Lee, 2021) and LeverageSHAP (Musco & Witter, 2025) are known to satisfy theoretical guarantees, bounds for KernelSHAP have remained elusive. We describe a broad and unified framework that encompasses KernelSHAP and related estimators constructed using both with and without replacement sampling strategies. We then prove strong non-asymptotic theoretical guarantees that apply to all estimators from our framework. This provides, to the best of our knowledge, the first theoretical guarantees for KernelSHAP and sheds further light on tradeoffs between existing estimators. Through comprehensive benchmarking on small and medium dimensional datasets for Decision-Tree models, we validate our approach against exact Shapley values, consistently achieving low mean squared error with modest sample sizes. Furthermore, we make specific implementation improvements to enable scalability of our methods to high-dimensional datasets. Our methods, tested on datasets such MNIST and CIFAR10, provide consistently better results compared to the KernelSHAP library.

arxiv情報

著者 Tyler Chen,Akshay Seshadri,Mattia J. Villani,Pradeep Niroula,Shouvanik Chakrabarti,Archan Ray,Pranav Deshpande,Romina Yalovetzky,Marco Pistoia,Niraj Kumar
発行日 2025-06-05 16:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, quant-ph | コメントする

Progressive Tempering Sampler with Diffusion

要約

最近の研究では、非正常密度からサンプリングのプロセスを償却するニューラルサンプラーの設計に焦点を当てています。
しかし、ターゲット評価の効率性に関しては、大幅に進歩しているにもかかわらず、最先端のMCMCアプローチであるParallel Tempering(PT)に依然として不足しています。
一方、よく訓練されたニューラルサンプラーとは異なり、PTは依存サンプルのみを生成し、新しいサンプルが必要な場合はいつでも、かなりの計算コストで再実行する必要があります。
これらの弱点に対処するために、拡散モデルを拡散した拡散(PTSD)を備えたプログレッシブ温度サンプラーを提案します。これは、温度全体で拡散モデルを順次訓練し、PTの利点を活用して神経サンプラーのトレーニングを改善します。
また、高温拡散モデルを組み合わせて、MCMCを使用して最小限に洗練され、次の拡散モデルをトレーニングするために使用される近似低温サンプルを生成するための新しい方法を紹介します。
PTSDにより、温度レベル全体でサンプル情報を効率的に再利用しながら、よく混合された無相関サンプルを生成できます。
私たちの方法は、標的評価効率を大幅に改善し、拡散ベースのニューラルサンプラーを上回ります。

要約(オリジナル)

Recent research has focused on designing neural samplers that amortize the process of sampling from unnormalized densities. However, despite significant advancements, they still fall short of the state-of-the-art MCMC approach, Parallel Tempering (PT), when it comes to the efficiency of target evaluations. On the other hand, unlike a well-trained neural sampler, PT yields only dependent samples and needs to be rerun — at considerable computational cost — whenever new samples are required. To address these weaknesses, we propose the Progressive Tempering Sampler with Diffusion (PTSD), which trains diffusion models sequentially across temperatures, leveraging the advantages of PT to improve the training of neural samplers. We also introduce a novel method to combine high-temperature diffusion models to generate approximate lower-temperature samples, which are minimally refined using MCMC and used to train the next diffusion model. PTSD enables efficient reuse of sample information across temperature levels while generating well-mixed, uncorrelated samples. Our method significantly improves target evaluation efficiency, outperforming diffusion-based neural samplers.

arxiv情報

著者 Severi Rissanen,RuiKang OuYang,Jiajun He,Wenlin Chen,Markus Heinonen,Arno Solin,José Miguel Hernández-Lobato
発行日 2025-06-05 16:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Causal Discovery from Conditionally Stationary Time Series

要約

因果発見、すなわち、観察データから根本的な因果関係を推測することは、AIシステムにとって非常に困難です。
時系列モデリングのコンテキストでは、従来の因果発見方法は、主に、完全に観察された変数および/または固定時代からのデータを備えた制約されたシナリオを考慮します。
私たちは、非定常行動が潜在状態変数のセットを条件付けされた定常性としてモデル化される条件付きで固定的な非定常時系列の広いクラスを処理する因果発見アプローチを開発します。
状態依存因果推論(SDCI)と名付けられたこのアプローチは、状態依存因果構造の証明可能な識別可能性を伴う、基礎となる因果関係を回復することができます。
非線形粒子相互作用データと遺伝子調節ネットワークに関する経験的実験は、ベースライン因果発見方法よりもSDCIの優れた性能を示しています。
NBAプレーヤーの動きのモデリングに関する非因果性RNNの改善された結果は、当社の方法の可能性を示し、予測のための因果関係主導の方法の使用を動機付けます。

要約(オリジナル)

Causal discovery, i.e., inferring underlying causal relationships from observational data, is highly challenging for AI systems. In a time series modeling context, traditional causal discovery methods mainly consider constrained scenarios with fully observed variables and/or data from stationary time-series. We develop a causal discovery approach to handle a wide class of nonstationary time series that are conditionally stationary, where the nonstationary behaviour is modeled as stationarity conditioned on a set of latent state variables. Named State-Dependent Causal Inference (SDCI), our approach is able to recover the underlying causal dependencies, with provable identifiablity for the state-dependent causal structures. Empirical experiments on nonlinear particle interaction data and gene regulatory networks demonstrate SDCI’s superior performance over baseline causal discovery methods. Improved results over non-causal RNNs on modeling NBA player movements demonstrate the potential of our method and motivate the use of causality-driven methods for forecasting.

arxiv情報

著者 Carles Balsells-Rodas,Xavier Sumba,Tanmayee Narendra,Ruibo Tu,Gabriele Schweikert,Hedvig Kjellstrom,Yingzhen Li
発行日 2025-06-05 16:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Blink of an eye: a simple theory for feature localization in generative models

要約

大きな言語モデルは、瞬く間に予期しない動作を示すことができます。
最近のコンピューター使用デモでは、コーディングからイエローストーンのグーグル写真に切り替えられた言語モデルであり、これらの突然の行動の変化は、推論パターンと脱獄でも観察されています。
この現象は、自己回帰モデルに固有のものではありません。拡散モデルでは、生成プロセスの狭い「重要なウィンドウ」で最終出力の主要な特徴が決定されます。
この作業では、確率的局在サンプラーの形式を使用してこの現象を説明するためのシンプルで統一された理論を開発します。
生成プロセスがモデルモデルの分布のサブポピュレーションにローカルするにつれて、一般的に出現することを示します。
重要なウィンドウは拡散モデルで詳細に研究されていますが、既存の理論は、強力な分布の仮定とガウス拡散の詳細に大きく依存しています。
既存の研究とは対照的に、私たちの理論(1)は自己回帰モデルと拡散モデルに適用されます。
(2)分布の仮定を行いません。
(3)拡散に特化した場合でも、以前の境界を定量的に改善します。
(4)基本的なツールが必要であり、確率的計算または統計学的物理ベースの機械は必要ありません。
また、統計的推論からのオールオアナッシングの現象との興味深いつながりを特定します。
最後に、LLMSの予測を経験的に検証し、重要なウィンドウがさまざまな数学と推論ベンチマークの問題解決の失敗としばしば一致することが多いことがわかります。

要約(オリジナル)

Large language models can exhibit unexpected behavior in the blink of an eye. In a recent computer use demo, a language model switched from coding to Googling pictures of Yellowstone, and these sudden shifts in behavior have also been observed in reasoning patterns and jailbreaks. This phenomenon is not unique to autoregressive models: in diffusion models, key features of the final output are decided in narrow “critical windows” of the generation process. In this work we develop a simple, unifying theory to explain this phenomenon using the formalism of stochastic localization samplers. We show that it emerges generically as the generation process localizes to a sub-population of the distribution it models. While critical windows have been studied at length in diffusion models, existing theory heavily relies on strong distributional assumptions and the particulars of Gaussian diffusion. In contrast to existing work our theory (1) applies to autoregressive and diffusion models; (2) makes no distributional assumptions; (3) quantitatively improves previous bounds even when specialized to diffusions; and (4) requires basic tools and no stochastic calculus or statistical-physics-based machinery. We also identify an intriguing connection to the all-or-nothing phenomenon from statistical inference. Finally, we validate our predictions empirically for LLMs and find that critical windows often coincide with failures in problem solving for various math and reasoning benchmarks.

arxiv情報

著者 Marvin Li,Aayush Karan,Sitan Chen
発行日 2025-06-05 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする