Loop closure grasping: Topological transformations enable strong, gentle, and versatile grasps

要約

把握メカニズムは、安全で効果的なオブジェクトの操作を可能にする握りを作成し、その後把握する必要があります。
既存のメカニズムは、単一の形態を使用して作成のさまざまな機能要件と把握保持のさまざまな機能要件に対処していますが、多くのアプリケーションに必要な同時強度、優しさ、および汎用性をまだ達成していません。
オープンループと閉ループの形態の間のトポロジカル変換を通じてこれらの異なる機能要件に対処するロボット把握のクラスである「ループクロージャーグラッティング」を提示します。
これらの形態を把握し、ループクロージャーグラスピング方法を定式化し、柔らかく成長している膨張ビーム、ウィンチ、クランプを使用して実装する原理とデザインアーキテクチャを提示します。
メカニズムの最初のオープンループトポロジは、妨げられていないチップの動きを介して汎用性の高い把握の作成を可能にし、ループを閉じることで、効果的に無限の曲げコンプライアンスで強力で穏やかな保持を可能にします。
ループ閉鎖の把握は、単一モーフォロジーデザインのトレードオフを回避し、歴史的に挑戦的なオブジェクト、環境、および構成を含む握りを可能にします。

要約(オリジナル)

Grasping mechanisms must both create and subsequently hold grasps that permit safe and effective object manipulation. Existing mechanisms address the different functional requirements of grasp creation and grasp holding using a single morphology, but have yet to achieve the simultaneous strength, gentleness, and versatility needed for many applications. We present ‘loop closure grasping’, a class of robotic grasping that addresses these different functional requirements through topological transformations between open-loop and closed-loop morphologies. We formalize these morphologies for grasping, formulate the loop closure grasping method, and present principles and a design architecture that we implement using soft growing inflated beams, winches, and clamps. The mechanisms’ initial open-loop topology enables versatile grasp creation via unencumbered tip movement, and closing the loop enables strong and gentle holding with effectively infinite bending compliance. Loop closure grasping circumvents the tradeoffs of single-morphology designs, enabling grasps involving historically challenging objects, environments, and configurations.

arxiv情報

著者 Kentaro Barhydt,O. Godson Osele,Sreela Kodali,Cosima du Pasquier,Chase M. Hartquist,H. Harry Asada,Allison M. Okamura
発行日 2025-05-15 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Loop closure grasping: Topological transformations enable strong, gentle, and versatile grasps はコメントを受け付けていません

From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control

要約

部分微分方程式(PDE)に制約された制御のための深い学習の適用は、注目を集めています。
ただし、既存の方法は、現実世界のアプリケーションでは安全要件が重要であるとは考えられません。
この制限に対処するために、PDE制御の安全な拡散モデル(SafeDiffCon)を提案します。これにより、モデルの不確実性の定量化として不確実性分位が導入され、トレーニング後の段階と推論段階の両方を通じて安全制約の下で最適な制御を実現します。
第一に、私たちのアプローチは、事前に訓練された拡散モデルを導き出し、適合予測を使用して推定された不確実性分位を組み込んだ、再重量化された拡散損失を介して改善された制御目標を達成しながら、安全性の制約をよりよく満たす制御シーケンスを生成します。
第二に、推論中、拡散モデルは、推定された不確実性分位を同時に統合しながら、コントロールターゲットに条件付けられた、反復ガイダンスと微調整を通じて、その生成プロセスとパラメーターの両方を動的に調整します。
SafeDiffConを3つの制御タスクで評価します:1Dハンバーガーの方程式、2D非圧縮性液、および制御された核融合問題。
結果は、SafediffConがすべての安全上の制約を満たす唯一の方法であることを示していますが、他の古典的および深い学習ベースラインは失敗します。
さらに、安全上の制約を順守しながら、SafeDiffConは最高の制御パフォーマンスを達成します。

要約(オリジナル)

The application of deep learning for partial differential equation (PDE)-constrained control is gaining increasing attention. However, existing methods rarely consider safety requirements crucial in real-world applications. To address this limitation, we propose Safe Diffusion Models for PDE Control (SafeDiffCon), which introduce the uncertainty quantile as model uncertainty quantification to achieve optimal control under safety constraints through both post-training and inference phases. Firstly, our approach post-trains a pre-trained diffusion model to generate control sequences that better satisfy safety constraints while achieving improved control objectives via a reweighted diffusion loss, which incorporates the uncertainty quantile estimated using conformal prediction. Secondly, during inference, the diffusion model dynamically adjusts both its generation process and parameters through iterative guidance and fine-tuning, conditioned on control targets while simultaneously integrating the estimated uncertainty quantile. We evaluate SafeDiffCon on three control tasks: 1D Burgers’ equation, 2D incompressible fluid, and controlled nuclear fusion problem. Results demonstrate that SafeDiffCon is the only method that satisfies all safety constraints, whereas other classical and deep learning baselines fail. Furthermore, while adhering to safety constraints, SafeDiffCon achieves the best control performance.

arxiv情報

著者 Peiyan Hu,Xiaowei Qian,Wenhao Deng,Rui Wang,Haodong Feng,Ruiqi Feng,Tao Zhang,Long Wei,Yue Wang,Zhi-Ming Ma,Tailin Wu
発行日 2025-05-15 15:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control はコメントを受け付けていません

ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence

要約

知識蒸留(KD)は、通常、フォワードカルバック – イブラー発散(FKLD)またはリバースKLD(RKLD)を使用して、出力分布間の発散を最小限に抑えることにより、大規模な教師モデルから小規模な学生モデルに知識を転送します。
1ホットのラベルと比較して、教師の分布によって提供されるより広範な監督情報のため、効果的なトレーニングパラダイムになりました。
KDのコアチャレンジは、2つのモード濃度効果のバランスをとることにあります。
勾配の更新中に確率がどのように再割り当てされるかを分析することにより、これら2つの効果がFKLDとRKLDで絡み合っているが、極端な形で絡み合っていることがわかります。
具体的には、両方ともFKLDが弱すぎるため、学生はターゲットクラスに集中できません。
対照的に、両方ともRKLDで強すぎるため、教師からのより広い分布情報を無視しながら、生徒はターゲットクラスを過度に強調します。
この不均衡に対処するために、$ \ alpha $ \ beta $ -divergenceを備えた一般的なフレームワークであるABKDを提案します。
私たちの理論的結果は、ABKDがFKLDとRKLDの間のスムーズな補間を提供し、これらの効果の間で効果的なトレードオフを達成することを示しています。
12の教師と学生の設定を備えた17の言語/ビジョンデータセットでの広範な実験は、その有効性を確認します。
このコードは、https://github.com/ghwang-s/abkdで入手できます。

要約(オリジナル)

Knowledge Distillation (KD) transfers knowledge from a large teacher model to a smaller student model by minimizing the divergence between their output distributions, typically using forward Kullback-Leibler divergence (FKLD) or reverse KLD (RKLD). It has become an effective training paradigm due to the broader supervision information provided by the teacher distribution compared to one-hot labels. We identify that the core challenge in KD lies in balancing two mode-concentration effects: the \textbf{\textit{Hardness-Concentration}} effect, which refers to focusing on modes with large errors, and the \textbf{\textit{Confidence-Concentration}} effect, which refers to focusing on modes with high student confidence. Through an analysis of how probabilities are reassigned during gradient updates, we observe that these two effects are entangled in FKLD and RKLD, but in extreme forms. Specifically, both are too weak in FKLD, causing the student to fail to concentrate on the target class. In contrast, both are too strong in RKLD, causing the student to overly emphasize the target class while ignoring the broader distributional information from the teacher. To address this imbalance, we propose ABKD, a generic framework with $\alpha$-$\beta$-divergence. Our theoretical results show that ABKD offers a smooth interpolation between FKLD and RKLD, achieving an effective trade-off between these effects. Extensive experiments on 17 language/vision datasets with 12 teacher-student settings confirm its efficacy. The code is available at https://github.com/ghwang-s/abkd.

arxiv情報

著者 Guanghui Wang,Zhiyong Yang,Zitai Wang,Shi Wang,Qianqian Xu,Qingming Huang
発行日 2025-05-15 15:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence はコメントを受け付けていません

AutoCam: Hierarchical Path Planning for an Autonomous Auxiliary Camera in Surgical Robotics

要約

自律補助カメラをロボット支援の低侵襲手術(RAMIS)に組み込むと、空間的認識が向上し、手動の視点制御が排除されます。
補助カメラの既存の経路計画方法は、2次元外科的特徴を追跡しますが、カメラの向き、ワークスペースの制約、ロボットの共同限界を同時に説明しません。
この研究では、Autocam:Ramisの視覚化を改善するための自動補助カメラ配置方法を紹介します。
Da Vinci Research Kitに実装されたこのシステムは、優先順位ベースのワークスペース制御制御アルゴリズムを使用して、ヒューリスティックな幾何学的配置と非線形最適化を組み合わせて、堅牢なカメラトラッキングを確保します。
ユーザー調査(n = 6)は、システムが顕著な機能の99.84%の可視性を維持し、4.36 $ \ pm $ 2.11度と1.95 $ \ pm $ 5.66 mmのポーズエラーを達成したことを実証しました。
コントローラーは計算上効率的で、ループ時間は6.8 $ \ pm $ 12.8ミリ秒でした。
初心者が腹腔鏡手術トレーニングタスクの基礎を完了した追加のパイロット研究(n = 6)は、ユーザーがAutocamの観点からAutocamのシーンの視覚的カバーの改善の恩恵を受けながら、Autocamの観点からも効果的にテレオティーチできることを示唆しています。
これらの結果は、ラミスの新しいマルチカメラ視覚化方法の基礎を築くために、ダヴィンチ患者側のマニピュレーターを使用して補助カメラを自律的に制御できることを示しています。

要約(オリジナル)

Incorporating an autonomous auxiliary camera into robot-assisted minimally invasive surgery (RAMIS) enhances spatial awareness and eliminates manual viewpoint control. Existing path planning methods for auxiliary cameras track two-dimensional surgical features but do not simultaneously account for camera orientation, workspace constraints, and robot joint limits. This study presents AutoCam: an automatic auxiliary camera placement method to improve visualization in RAMIS. Implemented on the da Vinci Research Kit, the system uses a priority-based, workspace-constrained control algorithm that combines heuristic geometric placement with nonlinear optimization to ensure robust camera tracking. A user study (N=6) demonstrated that the system maintained 99.84% visibility of a salient feature and achieved a pose error of 4.36 $\pm$ 2.11 degrees and 1.95 $\pm$ 5.66 mm. The controller was computationally efficient, with a loop time of 6.8 $\pm$ 12.8 ms. An additional pilot study (N=6), where novices completed a Fundamentals of Laparoscopic Surgery training task, suggests that users can teleoperate just as effectively from AutoCam’s viewpoint as from the endoscope’s while still benefiting from AutoCam’s improved visual coverage of the scene. These results indicate that an auxiliary camera can be autonomously controlled using the da Vinci patient-side manipulators to track a salient feature, laying the groundwork for new multi-camera visualization methods in RAMIS.

arxiv情報

著者 Alexandre Banks,Randy Moore,Sayem Nazmuz Zaman,Alaa Eldin Abdelaal,Septimiu E. Salcudean
発行日 2025-05-15 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO, cs.SY, eess.SP, eess.SY, I.2.9 | AutoCam: Hierarchical Path Planning for an Autonomous Auxiliary Camera in Surgical Robotics はコメントを受け付けていません

Unitless Unrestricted Markov-Consistent SCM Generation: Better Benchmark Datasets for Causal Discovery

要約

因果発見は、データから因果グラフの形で定性的因果知識を抽出することを目的としています。
因果基地の真理は現実の世界ではめったに知られていないため、シミュレートされたデータは、文献で提案されているさまざまな因果発見アルゴリズムのパフォーマンスを評価する上で重要な役割を果たします。
しかし、最近の研究では、変数の分散と他のすべての変数をそれぞれ回帰した後、変数の分散と測定係数(R2)を含む、非物理的である可能性のある構造因果モデル(SCM)の標準クラスの構造因果モデル(SCM)の一般的に使用されるデータ生成手法の特定のアーティファクトを強調しました。
いくつかの因果的方法は、そのようなアーティファクトを活用して、実際のデータでのパフォーマンスに対する非現実的な期待につながります。
これらのアーティファクトを削除するためにいくつかの変更が提案されています。
特に、内部的に標準化された構造因果モデル(ISCM)は、バーソルト性を回避し、まばらな因果グラフでR2溶解度を大幅に緩和しますが、作業では紹介されていないデンサーグラフの逆のR2溶解性パターンを示します。
実際のデータに表示されると予想されるソート性パターンを分析し、SCMの空間をより効果的にサンプリングする係数を描画する方法を提案します。
最後に、SCM生成法の新しい拡張を時系列設定に提案します。

要約(オリジナル)

Causal discovery aims to extract qualitative causal knowledge in the form of causal graphs from data. Because causal ground truth is rarely known in the real world, simulated data plays a vital role in evaluating the performance of the various causal discovery algorithms proposed in the literature. But recent work highlighted certain artifacts of commonly used data generation techniques for a standard class of structural causal models (SCM) that may be nonphysical, including var- and R2-sortability, where the variables’ variance and coefficients of determination (R2) after regressing on all other variables, respectively, increase along the causal order. Some causal methods exploit such artifacts, leading to unrealistic expectations for their performance on real-world data. Some modifications have been proposed to remove these artifacts; notably, the internally-standardized structural causal model (iSCM) avoids varsortability and largely alleviates R2-sortability on sparse causal graphs, but exhibits a reversed R2-sortability pattern for denser graphs not featured in their work. We analyze which sortability patterns we expect to see in real data, and propose a method for drawing coefficients that we argue more effectively samples the space of SCMs. Finally, we propose a novel extension of our SCM generation method to the time series setting.

arxiv情報

著者 Rebecca J. Herman,Jonas Wahl,Urmi Ninad,Jakob Runge
発行日 2025-05-15 15:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unitless Unrestricted Markov-Consistent SCM Generation: Better Benchmark Datasets for Causal Discovery はコメントを受け付けていません

Two-Stage Generative Model for Intracranial Aneurysm Meshes with Morphological Marker Conditioning

要約

頭蓋内動脈瘤(IA)のメッシュジオメトリの生成モデルは、疾患の進行に影響を与える重要な要因であるリアルタイムで血流力を予測するためにネットワークをトレーニングするために重要です。
このニーズは、大きなIA画像データセットがないことで必要です。
既存の形状生成方法は、現実的なIA機能をキャプチャし、IAポーチと親容器との関係を無視するのに苦労しており、生理学的リアリズムとその世代の制限は、特定の形態測定を行うことはできません。
2段階の変動自動エンコーダー(VAE)ベースのIAメッシュジェネレーターであるAneugを提案します。
最初の段階では、Aneugは低次元グラフ高調波変形(GHD)トークンを生成して、エネルギー統計の真実のモーフィングに制約されている動脈瘤ポーチの形状をエンコードおよび再構築します。
GHDは、代替よりも正確な形状エンコードを有効にします。
第2段階では、Aneugは、血管の中心線を生成し、断面を伝播することにより、GHDトークンに条件付けられた親容器を生成します。
AneugのIA形状生成は、特定の臨床的に関連する形態測定を行うようにさらに条件付けられます。
これは、研究が臨床測定によって表される形状の変動を理解し、流体のダイナミクスに対する特定の臨床形状パラメーターの効果を理解するためのフローシミュレーション研究に役立ちます。
ソースコードと実装の詳細は、https://github.com/anonymousaneug/aneugで入手できます。

要約(オリジナル)

A generative model for the mesh geometry of intracranial aneurysms (IA) is crucial for training networks to predict blood flow forces in real time, which is a key factor affecting disease progression. This need is necessitated by the absence of a large IA image datasets. Existing shape generation methods struggle to capture realistic IA features and ignore the relationship between IA pouches and parent vessels, limiting physiological realism and their generation cannot be controlled to have specific morphological measurements. We propose AneuG, a two-stage Variational Autoencoder (VAE)-based IA mesh generator. In the first stage, AneuG generates low-dimensional Graph Harmonic Deformation (GHD) tokens to encode and reconstruct aneurysm pouch shapes, constrained to morphing energy statistics truths. GHD enables more accurate shape encoding than alternatives. In the second stage, AneuG generates parent vessels conditioned on GHD tokens, by generating vascular centreline and propagating the cross-section. AneuG’s IA shape generation can further be conditioned to have specific clinically relevant morphological measurements. This is useful for studies to understand shape variations represented by clinical measurements, and for flow simulation studies to understand effects of specific clinical shape parameters on fluid dynamics. Source code and implementation details are available at https://github.com/anonymousaneug/AneuG.

arxiv情報

著者 Wenhao Ding,Choon Hwai Yap,Kangjun Ji,Simão Castro
発行日 2025-05-15 15:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG | Two-Stage Generative Model for Intracranial Aneurysm Meshes with Morphological Marker Conditioning はコメントを受け付けていません

Learning Graph Representation of Agent Diffusers

要約

拡散ベースの生成モデルは、テキストから画像間合成が大幅に進んでおり、印象的なテキスト理解とゼロショットの一般化を実証しています。
これらのモデルは、テキストのプロンプトに基づいてランダムノイズから画像を改良し、テキスト入力への最初の依存は、時間の経過とともに視覚的な忠実度を強化するためにシフトします。
この遷移は、静的モデルパラメーターが生成の異なるフェーズに最適に対処できない可能性があることを示唆しています。
動的なコンピュータービジョンタスクの適応性を向上させるために設計された新しいマルチエージェントシステムであるLGR-AD(エージェントディフューザーの学習グラフ表現)を紹介します。
LGR-ADは、生成プロセスを相互作用するエージェントの分散システムとしてモデル化し、それぞれがエキスパートサブモデルを表します。
これらのエージェントは、さまざまな条件に動的に適応し、関係とパフォーマンスメトリックをコードするグラフニューラルネットワークを介してコラボレーションします。
私たちのアプローチでは、最高$ k $の最大ツリーに基づく調整メカニズムを採用し、生成プロセスを最適化しています。
各エージェントの意思決定は、新しい損失関数を最小限に抑え、精度と多様性のバランスをとるメタモデルによって導かれます。
理論分析と広範な経験的評価は、LGR-ADがさまざまなベンチマークにわたって従来の拡散モデルよりも優れていることを示しており、複雑な画像生成タスクにおけるスケーラブルで柔軟なソリューションの可能性を強調しています。
コードはhttps://github.com/yousia/lgr_adで入手できます

要約(オリジナル)

Diffusion-based generative models have significantly advanced text-to-image synthesis, demonstrating impressive text comprehension and zero-shot generalization. These models refine images from random noise based on textual prompts, with initial reliance on text input shifting towards enhanced visual fidelity over time. This transition suggests that static model parameters might not optimally address the distinct phases of generation. We introduce LGR-AD (Learning Graph Representation of Agent Diffusers), a novel multi-agent system designed to improve adaptability in dynamic computer vision tasks. LGR-AD models the generation process as a distributed system of interacting agents, each representing an expert sub-model. These agents dynamically adapt to varying conditions and collaborate through a graph neural network that encodes their relationships and performance metrics. Our approach employs a coordination mechanism based on top-$k$ maximum spanning trees, optimizing the generation process. Each agent’s decision-making is guided by a meta-model that minimizes a novel loss function, balancing accuracy and diversity. Theoretical analysis and extensive empirical evaluations show that LGR-AD outperforms traditional diffusion models across various benchmarks, highlighting its potential for scalable and flexible solutions in complex image generation tasks. Code is available at: https://github.com/YousIA/LGR_AD

arxiv情報

著者 Youcef Djenouri,Nassim Belmecheri,Tomasz Michalak,Jan Dubiński,Ahmed Nabil Belbachir,Anis Yazidi
発行日 2025-05-15 15:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Learning Graph Representation of Agent Diffusers はコメントを受け付けていません

Decomposed Inductive Procedure Learning: Learning Academic Tasks with Human-Like Data Efficiency

要約

人間の学習は専門化に依存しています – 迅速な学習を可能にするために協力する明確な認知メカニズム。
対照的に、ほとんどの最新のニューラルネットワークは、客観的関数に対する勾配降下、単一のメカニズムに依存しています。
これは疑問を提起します:数万人のデータ駆動型の深い学習ではなく、数万の例から人間の学習者の比較的迅速な学習は、複数の専門化された学習メカニズムを組み合わせて使用​​する能力から生じますか?
オンラインの個別指導環境における誘導性の人間学習シミュレーションのアブレーション分析を通じて、この質問を調査します。
強化学習をよりデータ効率の高い3メカニズムのシンボリックルール誘導アプローチと比較すると、学習を複数の異なるメカニズムに分解するとデータ効率が大幅に向上し、人間の学習に沿ったものになることがわかります。
さらに、この分解は、シンボリック学習とサブシンボリック学習のみの区別よりも効率に大きな影響を与えることを示しています。
データ駆動型の機械学習と人間の学習を調整する努力は、しばしば学習効率の違いを見落としています。
私たちの調査結果は、複数の専門学習メカニズムを統合することが、このギャップを埋めるための鍵である可能性があることを示唆しています。

要約(オリジナル)

Human learning relies on specialization — distinct cognitive mechanisms working together to enable rapid learning. In contrast, most modern neural networks rely on a single mechanism: gradient descent over an objective function. This raises the question: might human learners’ relatively rapid learning from just tens of examples instead of tens of thousands in data-driven deep learning arise from our ability to use multiple specialized mechanisms of learning in combination? We investigate this question through an ablation analysis of inductive human learning simulations in online tutoring environments. Comparing reinforcement learning to a more data-efficient 3-mechanism symbolic rule induction approach, we find that decomposing learning into multiple distinct mechanisms significantly improves data efficiency, bringing it in line with human learning. Furthermore, we show that this decomposition has a greater impact on efficiency than the distinction between symbolic and subsymbolic learning alone. Efforts to align data-driven machine learning with human learning often overlook the stark difference in learning efficiency. Our findings suggest that integrating multiple specialized learning mechanisms may be key to bridging this gap.

arxiv情報

著者 Daniel Weitekamp,Christopher MacLellan,Erik Harpstead,Kenneth Koedinger
発行日 2025-05-15 15:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Decomposed Inductive Procedure Learning: Learning Academic Tasks with Human-Like Data Efficiency はコメントを受け付けていません

The Power of Random Features and the Limits of Distribution-Free Gradient Descent

要約

パラメトリックモデルの勾配ベースの最適化(たとえば、ニューラルネットワーク)とランダム機能の線形組み合わせの最適化との関係を研究します。
私たちの主な結果は、データ分布について仮定せずにミニバッチ確率勾配降下(BSGD)を使用してパラメトリックモデルを学習できる場合、高い確率で、ターゲット関数はランダムな特徴の多項式サイズの組み合わせを使用して近似できることを示しています。
この組み合わせのサイズは、勾配ステップの数とBSGDプロセスで使用される数値精度に依存します。
この発見は、勾配降下によって訓練されたニューラルネットワークにおける分布のない学習の基本的な制限を明らかにし、データ分布について仮定を行うことが実際に重要である理由を強調しています。
途中で、Kamath et al。
(2020)。
ADCは統計クエリディメンションと多項式関係があることを証明し、この関係を使用して、ADCと標準ディメンションの複雑さの間の無限の分離を実証します。

要約(オリジナル)

We study the relationship between gradient-based optimization of parametric models (e.g., neural networks) and optimization of linear combinations of random features. Our main result shows that if a parametric model can be learned using mini-batch stochastic gradient descent (bSGD) without making assumptions about the data distribution, then with high probability, the target function can also be approximated using a polynomial-sized combination of random features. The size of this combination depends on the number of gradient steps and numerical precision used in the bSGD process. This finding reveals fundamental limitations of distribution-free learning in neural networks trained by gradient descent, highlighting why making assumptions about data distributions is often crucial in practice. Along the way, we also introduce a new theoretical framework called average probabilistic dimension complexity (adc), which extends the probabilistic dimension complexity developed by Kamath et al. (2020). We prove that adc has a polynomial relationship with statistical query dimension, and use this relationship to demonstrate an infinite separation between adc and standard dimension complexity.

arxiv情報

著者 Ari Karchmer,Eran Malach
発行日 2025-05-15 15:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The Power of Random Features and the Limits of Distribution-Free Gradient Descent はコメントを受け付けていません

Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs

要約

推論能力の進歩により、大規模な言語モデル(LLMS)は複雑なタスクに優れています。
ただし、既存の方法は、推論の有効性と計算効率の間のトレードオフを見落としており、多くの場合、チェーンとトークンを無駄にする不必要に長い推論を奨励しています。
これに対処するために、LLMSの情報理論強化微調整フレームワークであるThink(L2T)を学習することを提案し、モデルがトークンを少なくする最適な推論を達成させるようにします。
具体的には、L2Tは各クエリ応答相互作用を複数のエピソードの階層セッションとして扱い、普遍的な密なプロセス報酬を提案します。つまり、パラメーターのエピソードごとの情報ゲインを定量化し、追加の注釈やタスク固有の評価者を必要としません。
PACベイズの境界とフィッシャー情報マトリックスに基づいて、この報酬を迅速に推定する方法を提案します。
理論分析では、推定精度が高いと計算の複雑さが大幅に低下することが示されています。
各エピソードの貢献に直ちに報酬を与え、過度の更新にペナルティを科すことで、L2Tは強化学習を介してモデルを最適化して、各エピソードの使用を最大化し、効果的な更新を達成します。
さまざまな推論ベンチマークとベースモデルの経験的結果は、さまざまなタスクにわたるL2Tの利点を示しており、推論の有効性と効率の両方を高めます。

要約(オリジナル)

Large language models (LLMs) excel at complex tasks thanks to advances in reasoning abilities. However, existing methods overlook the trade-off between reasoning effectiveness and computational efficiency, often encouraging unnecessarily long reasoning chains and wasting tokens. To address this, we propose Learning to Think (L2T), an information-theoretic reinforcement fine-tuning framework for LLMs to make the models achieve optimal reasoning with fewer tokens. Specifically, L2T treats each query-response interaction as a hierarchical session of multiple episodes and proposes a universal dense process reward, i.e., quantifies the episode-wise information gain in parameters, requiring no extra annotations or task-specific evaluators. We propose a method to quickly estimate this reward based on PAC-Bayes bounds and the Fisher information matrix. Theoretical analyses show that it significantly reduces computational complexity with high estimation accuracy. By immediately rewarding each episode’s contribution and penalizing excessive updates, L2T optimizes the model via reinforcement learning to maximize the use of each episode and achieve effective updates. Empirical results on various reasoning benchmarks and base models demonstrate the advantage of L2T across different tasks, boosting both reasoning effectiveness and efficiency.

arxiv情報

著者 Jingyao Wang,Wenwen Qiang,Zeen Song,Changwen Zheng,Hui Xiong
発行日 2025-05-15 15:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs はコメントを受け付けていません