REASSEMBLE: A Multimodal Dataset for Contact-rich Robotic Assembly and Disassembly

要約

ロボット操作は、特に産業集会や分解などの接触豊富なタスクのために、ロボット工学の中心的な課題のままです。
既存のデータセットは、操作において大幅に高度な学習を行っていますが、主にオブジェクトの再配置などのより単純なタスクに焦点を当てており、アセンブリと分解に関与する複雑さと物理的ダイナミクスをキャプチャすることはできません。
このギャップを埋めるために、連絡先の操作タスク専用に設計された新しいデータセットである再組み立て(ロボットアセンブリ分解データセット)を提示します。
NISTアセンブリタスクボード1ベンチマークの周りに構築された再構築には、17のオブジェクトを含む4つのアクション(ピック、挿入、削除、および配置)が含まれます。
データセットには4,551個のデモが含まれており、そのうち4,035個が合計781分にわたって成功しました。
データセットには、イベントカメラ、フォーストルクセンサー、マイク、マルチビューRGBカメラなどのマルチモーダルセンサーデータがあります。
この多様なデータセットは、連絡先が豊富な操作、タスク条件の識別、アクションセグメンテーションなどの学習などの分野での研究をサポートしています。
再組み立ては、複雑で実世界のシナリオでロボット操作を進めるための貴重なリソースになると考えています。
データセットは、プロジェクトWebサイトhttps://dsliwowski1.github.io/reassemble_pageで公開されています。

要約(オリジナル)

Robotic manipulation remains a core challenge in robotics, particularly for contact-rich tasks such as industrial assembly and disassembly. Existing datasets have significantly advanced learning in manipulation but are primarily focused on simpler tasks like object rearrangement, falling short of capturing the complexity and physical dynamics involved in assembly and disassembly. To bridge this gap, we present REASSEMBLE (Robotic assEmbly disASSEMBLy datasEt), a new dataset designed specifically for contact-rich manipulation tasks. Built around the NIST Assembly Task Board 1 benchmark, REASSEMBLE includes four actions (pick, insert, remove, and place) involving 17 objects. The dataset contains 4,551 demonstrations, of which 4,035 were successful, spanning a total of 781 minutes. Our dataset features multi-modal sensor data including event cameras, force-torque sensors, microphones, and multi-view RGB cameras. This diverse dataset supports research in areas such as learning contact-rich manipulation, task condition identification, action segmentation, and more. We believe REASSEMBLE will be a valuable resource for advancing robotic manipulation in complex, real-world scenarios. The dataset is publicly available on our project website: https://dsliwowski1.github.io/REASSEMBLE_page.

arxiv情報

著者 Daniel Sliwowski,Shail Jadav,Sergej Stanovcic,Jedrzej Orbik,Johannes Heidersberger,Dongheui Lee
発行日 2025-02-07 17:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | REASSEMBLE: A Multimodal Dataset for Contact-rich Robotic Assembly and Disassembly はコメントを受け付けていません

Use of Winsome Robots for Understanding Human Feedback (UWU)

要約

ソーシャルロボットがより一般的になるにつれて、多くの人がユーザーの快適さと受け入れを強化することを目指して、かわいい美学を採用しています。
ただし、補強学習シナリオにおける人間のフィードバックに対するこの美的選択の効果は不明のままです。
以前の研究では、人間は否定的なフィードバックよりも肯定的なものを与える傾向があることが示されており、これにより、最適なロボット行動に到達できない可能性があります。
この肯定的なバイアスは、ロボットの認識された可愛らしさのレベルによって悪化する可能性があると仮定します。
調査するために、参加者がタスクを実行しながらロボットの軌跡を批判するユーザー調査を実施しました。
次に、参加者のフィードバックの種類に対するロボットの美的可愛さの影響を分析しました。
我々の結果は、認識された可愛らしさが変化すると、陽性と負のフィードバックの比率に変化があることを示唆しています。
これに照らして、これらの効果を緩和するためにユーザーの肯定的なフィードバックバイアスのレベルに基づいて適応するTamerの確率的バージョンを実験します。

要約(オリジナル)

As social robots become more common, many have adopted cute aesthetics aiming to enhance user comfort and acceptance. However, the effect of this aesthetic choice on human feedback in reinforcement learning scenarios remains unclear. Previous research has shown that humans tend to give more positive than negative feedback, which can cause failure to reach optimal robot behavior. We hypothesize that this positive bias may be exacerbated by the robot’s level of perceived cuteness. To investigate, we conducted a user study where participants critique a robot’s trajectories while it performs a task. We then analyzed the impact of the robot’s aesthetic cuteness on the type of participant feedback. Our results suggest that there is a shift in the ratio of positive to negative feedback when perceived cuteness changes. In light of this, we experiment with a stochastic version of TAMER which adapts based on the user’s level of positive feedback bias to mitigate these effects.

arxiv情報

著者 Jessica Eggers,Angela Dai,Matthew C. Gombolay
発行日 2025-02-07 17:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Use of Winsome Robots for Understanding Human Feedback (UWU) はコメントを受け付けていません

Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency

要約

複数のエージェントを調整して、予測不可能な環境でサブモードゥル機能を共同で最大化することは、機械学習、ロボット計画、および制御における多数のアプリケーションを備えた重要なタスクです。
OSGアルゴリズムなどの既存のアプローチは、貧弱な近似保証と、完全に接続された通信グラフの剛性要件によって妨げられることがよくあります。
これらの課題に対処するために、まず$ \ textbf {ma-osma} $ algorithmを提示します。これは、多次線形拡張を使用して離散サブモジュラー最大化問題を連続的な最適化に転送し、それによって完全な依存関係を完全に減らすことができます。
コンセンサステクニックによるグラフ。
さらに、$ \ textbf {ma-osma} $は、最適下の固定点を避けるために、新しい代理勾配を活用します。
$ \ textbf {ma-osma} $の計算集中的な投影操作を排除するために、均一な分布を混合してKL分岐を効果的に利用するプロジェクションのない$ \ textbf {ma-osea} $ algorithmも導入します。
理論的には、両方のアルゴリズムが$ \ widetilde {o}(\ sqrt {\ frac {c_ {t} t} {1- \ beta}})$の$ \ widetilde {o}(\ sqrt {\ sqrt {c_ {t} t})の後悔の境界を達成することを確認します。
^{ – c}} {c} {c})$ – 後知恵の最良の比較器への近似。$ c_ {t} $はマキシマイザーシーケンスの偏差であり、$ \ beta $はネットワークのスペクトルギャップであり、$ c $は
サブモジュラー目標の共同湾曲。
この結果は、最先端のOSGアルゴリズムによって提供される$(\ frac {1} {1} {1+c})$の近似を大幅に改善します。
最後に、シミュレーションベースのマルチターゲット追跡を通じて、提案されたアルゴリズムの有効性を実証します。

要約(オリジナル)

Coordinating multiple agents to collaboratively maximize submodular functions in unpredictable environments is a critical task with numerous applications in machine learning, robot planning and control. The existing approaches, such as the OSG algorithm, are often hindered by their poor approximation guarantees and the rigid requirement for a fully connected communication graph. To address these challenges, we firstly present a $\textbf{MA-OSMA}$ algorithm, which employs the multi-linear extension to transfer the discrete submodular maximization problem into a continuous optimization, thereby allowing us to reduce the strict dependence on a complete graph through consensus techniques. Moreover, $\textbf{MA-OSMA}$ leverages a novel surrogate gradient to avoid sub-optimal stationary points. To eliminate the computationally intensive projection operations in $\textbf{MA-OSMA}$, we also introduce a projection-free $\textbf{MA-OSEA}$ algorithm, which effectively utilizes the KL divergence by mixing a uniform distribution. Theoretically, we confirm that both algorithms achieve a regret bound of $\widetilde{O}(\sqrt{\frac{C_{T}T}{1-\beta}})$ against a $(\frac{1-e^{-c}}{c})$-approximation to the best comparator in hindsight, where $C_{T}$ is the deviation of maximizer sequence, $\beta$ is the spectral gap of the network and $c$ is the joint curvature of submodular objectives. This result significantly improves the $(\frac{1}{1+c})$-approximation provided by the state-of-the-art OSG algorithm. Finally, we demonstrate the effectiveness of our proposed algorithms through simulation-based multi-target tracking.

arxiv情報

著者 Qixin Zhang,Zongqi Wan,Yu Yang,Li Shen,Dacheng Tao
発行日 2025-02-07 15:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, math.OC | Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency はコメントを受け付けていません

News about Global North considered Truthful! The Geo-political Veracity Gradient in Global South News

要約

さまざまなベンチマークデータセットによって支援された偽のニュース検出のためのAI技術の開発に関する多くの研究がありましたが、さまざまな地理政治領域の偽のニュースが異なる輪郭を痕跡することがしばしば指摘されています。
この作業では、分析的議論と経験的証拠を通じて、グローバルな南のviz。、地理政治的真正性勾配に由来するニュースの重要な特徴の存在を明らかにします。
特に、米国の選挙に関するインドの通信社からのニュースなど、グローバルノースからのトピックに関するグローバルサウスニュースが偽物である可能性が低い傾向があることを示しています。
偽のニュース創造の政治経済のプリズムを通して観察して、このパターンは、観客の地域的な任務とは異なる地域に関する偽のニュースを作成する際の金銭的に整合したインセンティブの相対的な欠如による可能性があると仮定します。
ベンチマークデータセットからこの証拠を提供します。
また、別の地域のコンテキスト内である地域で訓練された偽のニュースAIにAIベースの偽のニュース検出モデルを適用する際のこの効果の結果を経験的に分析します。
特に偽のニュース識別におけるAIの使用により、一般的にAI内の地理政治的偏見に関する新たな重要な奨学金の中に私たちの仕事を見つけます。
地理政治的な真実性勾配に関する洞察が、グローバルな南社会にプラスの影響を与えるための偽のニュース奨学金を操縦するのに役立つことを願っています。

要約(オリジナル)

While there has been much research into developing AI techniques for fake news detection aided by various benchmark datasets, it has often been pointed out that fake news in different geo-political regions traces different contours. In this work we uncover, through analytical arguments and empirical evidence, the existence of an important characteristic in news originating from the Global South viz., the geo-political veracity gradient. In particular, we show that Global South news about topics from Global North — such as news from an Indian news agency on US elections — tend to be less likely to be fake. Observing through the prism of the political economy of fake news creation, we posit that this pattern could be due to the relative lack of monetarily aligned incentives in producing fake news about a different region than the regional remit of the audience. We provide empirical evidence for this from benchmark datasets. We also empirically analyze the consequences of this effect in applying AI-based fake news detection models for fake news AI trained on one region within another regional context. We locate our work within emerging critical scholarship on geo-political biases within AI in general, particularly with AI usage in fake news identification; we hope our insight into the geo-political veracity gradient could help steer fake news AI scholarship towards positively impacting Global South societies.

arxiv情報

著者 Sujit Mandava,Deepak P,Sahely Bhadra
発行日 2025-02-07 15:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | News about Global North considered Truthful! The Geo-political Veracity Gradient in Global South News はコメントを受け付けていません

Leveraging a Simulator for Learning Causal Representations from Post-Treatment Covariates for CATE

要約

治療効果の推定には、個々の結果に対するさまざまな治療の影響を評価することが含まれます。
現在の方法では、陽性や非強制性などの仮定の下で、治療の割り当てと結果がその後観察される前に共変量が収集される観測データセットを使用して、条件平均治療効果(CATE)を推定します。
この論文では、治療後に共変量と結果の両方が収集されるシナリオに対処します。
治療後の共変量がCATEを識別不能にすることを示し、CATEを回復するには、治療に依存しない因果表現を学習する必要があることを示します。
以前の研究は、反事実的な監督が観察データで利用可能である場合、対照的な学習を通じてそのような表現を学ぶことができることを示しています。
ただし、反事実はまれであるため、他の作品は合成反事実的監督を提供するシミュレーターを使用して調査しています。
この論文の目標は、CATEの推定におけるシミュレーターの役割を体系的に分析することです。
いくつかのベースラインのCATEエラーを分析し、それらの制限を強調します。
次に、実際のシミュレーターのミスマッチの関数として、実際の分布とシミュレートされた分布に関する共同トレーニングからのCATEエラーを特徴付ける一般化バウンドを確立します。
最後に、simponetを紹介します。これは、一般化バウンドから損失関数がインスピレーションを受けた新しい方法です。
さらに、シミュレータがCATEタスクとの関連性に基づいて、Simponetが学習目標に対するシミュレーターの影響をどのように調整するかを示します。
最先端のCATEベースラインに対するシンポネットの有効性を評価するために、実際のシミュレータ分布ギャップを体系的に変化させることにより、さまざまなDGPを実験します。

要約(オリジナル)

Treatment effect estimation involves assessing the impact of different treatments on individual outcomes. Current methods estimate Conditional Average Treatment Effect (CATE) using observational datasets where covariates are collected before treatment assignment and outcomes are observed afterward, under assumptions like positivity and unconfoundedness. In this paper, we address a scenario where both covariates and outcomes are gathered after treatment. We show that post-treatment covariates render CATE unidentifiable, and recovering CATE requires learning treatment-independent causal representations. Prior work shows that such representations can be learned through contrastive learning if counterfactual supervision is available in observational data. However, since counterfactuals are rare, other works have explored using simulators that offer synthetic counterfactual supervision. Our goal in this paper is to systematically analyze the role of simulators in estimating CATE. We analyze the CATE error of several baselines and highlight their limitations. We then establish a generalization bound that characterizes the CATE error from jointly training on real and simulated distributions, as a function of the real-simulator mismatch. Finally, we introduce SimPONet, a novel method whose loss function is inspired from our generalization bound. We further show how SimPONet adjusts the simulator’s influence on the learning objective based on the simulator’s relevance to the CATE task. We experiment with various DGPs, by systematically varying the real-simulator distribution gap to evaluate SimPONet’s efficacy against state-of-the-art CATE baselines.

arxiv情報

著者 Lokesh Nagalapatti,Pranava Singhal,Avishek Ghosh,Sunita Sarawagi
発行日 2025-02-07 16:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Leveraging a Simulator for Learning Causal Representations from Post-Treatment Covariates for CATE はコメントを受け付けていません

Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data

要約

敵対的な訓練は、敵対的な摂動に対して堅牢であるために、深いニューラルネットワークを訓練するための広く適用されたアプローチです。
しかし、敵対的な訓練は実際に経験的な成功を達成していますが、なぜ敵対的な例が存在するのか、どのように敵対的なトレーニング方法がモデルの堅牢性を改善するかはまだ不明のままです。
この論文では、機能学習理論の観点から敵対的な例と敵対的な訓練アルゴリズムの理論的理解を提供します。
具体的には、構造化されたデータは、摂動に耐性があるがまばらである堅牢な機能と、摂動に敏感で密集している非げっ歯類の特徴の2つのタイプの機能で構成できる複数の分類設定に焦点を当てています。
2層の滑らかなリレリューコンボリューションニューラルネットワークを訓練して、構造化されたデータを学習します。
まず、標準のトレーニング(経験的リスクよりも勾配降下)を使用することにより、ネットワーク学習者は主に堅牢な特徴ではなく非堅牢な機能を学習することを証明します。
– 頑丈な機能の方向。
次に、グラデーションベースの敵対的トレーニングアルゴリズムを検討します。これは、勾配上昇を実行して敵対例を見つけ、敵の例で経験的リスクよりも勾配降下を実行してモデルを更新します。
敵対的なトレーニング方法は、堅牢な機能学習を実証し、ネットワークの堅牢性を向上させるための非積極的な機能学習を抑制できることを示しています。
最後に、MNIST、CIFAR10、SVHNを含む実数データセットでの実験で理論的発見を経験的に検証します。

要約(オリジナル)

Adversarial training is a widely-applied approach to training deep neural networks to be robust against adversarial perturbation. However, although adversarial training has achieved empirical success in practice, it still remains unclear why adversarial examples exist and how adversarial training methods improve model robustness. In this paper, we provide a theoretical understanding of adversarial examples and adversarial training algorithms from the perspective of feature learning theory. Specifically, we focus on a multiple classification setting, where the structured data can be composed of two types of features: the robust features, which are resistant to perturbation but sparse, and the non-robust features, which are susceptible to perturbation but dense. We train a two-layer smoothed ReLU convolutional neural network to learn our structured data. First, we prove that by using standard training (gradient descent over the empirical risk), the network learner primarily learns the non-robust feature rather than the robust feature, which thereby leads to the adversarial examples that are generated by perturbations aligned with negative non-robust feature directions. Then, we consider the gradient-based adversarial training algorithm, which runs gradient ascent to find adversarial examples and runs gradient descent over the empirical risk at adversarial examples to update models. We show that the adversarial training method can provably strengthen the robust feature learning and suppress the non-robust feature learning to improve the network robustness. Finally, we also empirically validate our theoretical findings with experiments on real-image datasets, including MNIST, CIFAR10 and SVHN.

arxiv情報

著者 Binghui Li,Yuanzhi Li
発行日 2025-02-07 16:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data はコメントを受け付けていません

Hybrid machine learning based scale bridging framework for permeability prediction of fibrous structures

要約

この研究では、繊維性繊維構造の透過性を予測するためのハイブリッド機械学習ベースのスケールブリッジフレームワークを紹介します。
マルチスケールモデリングに固有の計算上の課題に対処することにより、提案されたアプローチは、従来のサロゲートモデルを組み合わせたさまざまなスケールブリッジング方法論の効率と精度を評価し、物理学に基づいたニューラルネットワーク(PINN)と数値ソルバーを統合し、ミクロ全体の正確な透過性予測を可能にします。
とメソスケール。
4つの方法論が評価されました:単一スケール法(SSM)、単純なアップスケーリング法(SUM)、スケールブリッジング法(SBM)、および完全に解決されたモデル(FRM)。
最も単純な方法であるSSMは、マイクロスケールの透過性を無視し、FRMモデルの最大150 \%で偏差する透過性値を示しました。
均一なマイクロスケールの透過性を考慮して、同様の条件下でより近い値を生成することにより、合計の改善された予測を改善しましたが、それでも構造的なばらつきがありませんでした。
セグメントベースのマイクロスケール透磁率の割り当てを組み込んだSBMメソッドは、大幅な強化を示し、計算効率を維持し、シミュレーションあたり約45分のランタイムをモデリングしながらほぼ同等の値を達成しました。
対照的に、MicroscaleとMesoscaleの形状を完全に解決することにより最高の忠実度を提供するFRMは、SSMよりも最大270倍の計算時間が必要であり、モデルファイルは300 GBを超えています。
さらに、PINNを組み込んだハイブリッドデュアルスケールソルバーが開発されており、一般化エラーを克服する可能性と、データ駆動型のサロゲートアプローチのデータ不足の問題を示しています。
ハイブリッドフレームワークは、計算コストと予測の信頼性のバランスをとることにより透過性モデリングを進め、線維性複合材の製造におけるさらなる用途の基礎を築きます。

要約(オリジナル)

This study introduces a hybrid machine learning-based scale-bridging framework for predicting the permeability of fibrous textile structures. By addressing the computational challenges inherent to multiscale modeling, the proposed approach evaluates the efficiency and accuracy of different scale-bridging methodologies combining traditional surrogate models and even integrating physics-informed neural networks (PINNs) with numerical solvers, enabling accurate permeability predictions across micro- and mesoscales. Four methodologies were evaluated: Single Scale Method (SSM), Simple Upscaling Method (SUM), Scale-Bridging Method (SBM), and Fully Resolved Model (FRM). SSM, the simplest method, neglects microscale permeability and exhibited permeability values deviating by up to 150\% of the FRM model, which was taken as ground truth at an equivalent lower fiber volume content. SUM improved predictions by considering uniform microscale permeability, yielding closer values under similar conditions, but still lacked structural variability. The SBM method, incorporating segment-based microscale permeability assignments, showed significant enhancements, achieving almost equivalent values while maintaining computational efficiency and modeling runtimes of ~45 minutes per simulation. In contrast, FRM, which provides the highest fidelity by fully resolving microscale and mesoscale geometries, required up to 270 times more computational time than SSM, with model files exceeding 300 GB. Additionally, a hybrid dual-scale solver incorporating PINNs has been developed and shows the potential to overcome generalization errors and the problem of data scarcity of the data-driven surrogate approaches. The hybrid framework advances permeability modelling by balancing computational cost and prediction reliability, laying the foundation for further applications in fibrous composite manufacturing.

arxiv情報

著者 Denis Korolev,Tim Schmidt,Dinesh K. Natarajan,Stefano Cassola,David May,Miro Duhovic,Michael Hintermüller
発行日 2025-02-07 16:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hybrid machine learning based scale bridging framework for permeability prediction of fibrous structures はコメントを受け付けていません

Do Unlearning Methods Remove Information from Language Model Weights?

要約

サイバーセキュリティ攻撃を実行し、生物兵器を作成し、人間を操作する方法に関する大規模な言語モデルの知識は、誤用のリスクをもたらします。
以前の研究では、この知識を学習する方法を提案しています。
歴史的に、学習技術がモデルの重みから情報を削除しているのか、それともアクセスを難しくしているのかは不明でした。
これらの2つの目的を解くために、モデルの重みから情報の削除をテストするための敵対的評価方法を提案します。
アクセス可能な事実から推測できないのと同じ分布。
アクセス可能な事実に微調整することで、事前脱出中に学習した情報の現在の未学習方法に適用された場合、ユダヤリング前の精度の88%を回復し、モデルの重みから情報を削除する際のこれらの方法の制限を明らかにすることができることを示します。
また、我々の結果は、追加の微調整段階で学んだ情報の堅牢性を測定する学習の不明な評価が、事前脱布中に学んだ情報を学んだ評価を試みる評価と比較して、堅牢性を過大評価する可能性があることを示唆しています。

要約(オリジナル)

Large Language Models’ knowledge of how to perform cyber-security attacks, create bioweapons, and manipulate humans poses risks of misuse. Previous work has proposed methods to unlearn this knowledge. Historically, it has been unclear whether unlearning techniques are removing information from the model weights or just making it harder to access. To disentangle these two objectives, we propose an adversarial evaluation method to test for the removal of information from model weights: we give an attacker access to some facts that were supposed to be removed, and using those, the attacker tries to recover other facts from the same distribution that cannot be guessed from the accessible facts. We show that using fine-tuning on the accessible facts can recover 88% of the pre-unlearning accuracy when applied to current unlearning methods for information learned during pretraining, revealing the limitations of these methods in removing information from the model weights. Our results also suggest that unlearning evaluations that measure unlearning robustness on information learned during an additional fine-tuning phase may overestimate robustness compared to evaluations that attempt to unlearn information learned during pretraining.

arxiv情報

著者 Aghyad Deeb,Fabien Roger
発行日 2025-02-07 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Do Unlearning Methods Remove Information from Language Model Weights? はコメントを受け付けていません

Noise Sensitivity of Hierarchical Functions and Deep Learning Lower Bounds in General Product Measures

要約

最近の作品は、階層構造を使用した機能またはデータを調べることにより、Deep Learningの成功を探ります。
補完的には、ディープネットの勾配降下性能に関する研究により、独立した同一に分布した(I.I.D.)ベルヌーイ入力の下での機能のノイズ感度が学習の複雑さの境界を確立することが示されています。
この論文は、非線形関数の繰り返し組成によって構築された機能が一般的な製品測定の下で騒音に敏感であることを実証することにより、これらの研究ストリームを橋渡しすることを目的としています。

要約(オリジナル)

Recent works explore deep learning’s success by examining functions or data with hierarchical structure. Complementarily, research on gradient descent performance for deep nets has shown that noise sensitivity of functions under independent and identically distributed (i.i.d.) Bernoulli inputs establishes learning complexity bounds. This paper aims to bridge these research streams by demonstrating that functions constructed through repeated composition of non-linear functions are noise sensitive under general product measures.

arxiv情報

著者 Rupert Li,Elchanan Mossel
発行日 2025-02-07 16:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG, math.CO, math.PR | Noise Sensitivity of Hierarchical Functions and Deep Learning Lower Bounds in General Product Measures はコメントを受け付けていません

Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models

要約

本論文では、ランダム行列resolventの2点関数に関する新しい決定論的等価性を導出する。この結果を用いて、確率的勾配降下法を用いて訓練された様々な高次元線形モデルの性能を統一的に導出する。これには、高次元線形回帰、カーネル回帰、ランダム特徴モデルが含まれる。我々の結果は、以前から知られている漸近法だけでなく、新しい漸近法も含んでいる。

要約(オリジナル)

We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and random feature models. Our results include previously known asymptotics as well as novel ones.

arxiv情報

著者 Alexander Atanasov,Blake Bordelon,Jacob A. Zavatone-Veth,Courtney Paquette,Cengiz Pehlevan
発行日 2025-02-07 16:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML | Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models はコメントを受け付けていません