HelmetPoser: A Helmet-Mounted IMU Dataset for Data-Driven Estimation of Human Head Motion in Diverse Conditions

要約

ヘルメットに取り付けられたウェアラブルポジショニングシステムは、産業、建設、緊急救助環境の安全性を高め、調整を促進するために重要です。
Lidar-inertial odometry(LIO)および視覚型臭気(VIO)を含むこれらのシステムは、ほこり、煙、限られた視覚的特徴などの環境条件の不利な状態により、局在化において課題に直面することがよくあります。
これらの制限に対処するために、データ駆動型のIMUポーズ推定を進めることを目的とした、グラウンドトゥルースを備えた新しいヘッドマウント慣性測定ユニット(IMU)データセットを提案します。
データセットは、ヘルメットに取り付けられたシステムを使用して人間のヘッドモーションパターンをキャプチャし、10人の参加者のデータがさまざまなアクティビティを実行しています。
IMUバイアスを修正し、ローカリゼーションの精度を向上させるために、特に長期メモリ(LSTM)と変圧器ネットワークのニューラルネットワークの適用を調査します。
さらに、さまざまなIMUデータウィンドウの寸法、モーションパターン、センサータイプにわたるこれらのメソッドのパフォーマンスを評価します。
公開されているデータセットをリリースし、ヘルメットベースのローカリゼーションの高度なニューラルネットワークアプローチの実現可能性を実証し、この分野での将来の研究のベースラインを確立するための評価メトリックを提供します。
データとコードは、https://lqiutong.github.io/helmetposer.github.io/にあります。

要約(オリジナル)

Helmet-mounted wearable positioning systems are crucial for enhancing safety and facilitating coordination in industrial, construction, and emergency rescue environments. These systems, including LiDAR-Inertial Odometry (LIO) and Visual-Inertial Odometry (VIO), often face challenges in localization due to adverse environmental conditions such as dust, smoke, and limited visual features. To address these limitations, we propose a novel head-mounted Inertial Measurement Unit (IMU) dataset with ground truth, aimed at advancing data-driven IMU pose estimation. Our dataset captures human head motion patterns using a helmet-mounted system, with data from ten participants performing various activities. We explore the application of neural networks, specifically Long Short-Term Memory (LSTM) and Transformer networks, to correct IMU biases and improve localization accuracy. Additionally, we evaluate the performance of these methods across different IMU data window dimensions, motion patterns, and sensor types. We release a publicly available dataset, demonstrate the feasibility of advanced neural network approaches for helmet-based localization, and provide evaluation metrics to establish a baseline for future studies in this field. Data and code can be found at https://lqiutong.github.io/HelmetPoser.github.io/.

arxiv情報

著者 Jianping Li,Qiutong Leng,Jinxing Liu,Xinhang Xu,Tongxin Jin,Muqing Cao,Thien-Minh Nguyen,Shenghai Yuan,Kun Cao,Lihua Xie
発行日 2025-02-14 14:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HelmetPoser: A Helmet-Mounted IMU Dataset for Data-Driven Estimation of Human Head Motion in Diverse Conditions はコメントを受け付けていません

Integrated Multi-Simulation Environments for Aerial Robotics Research

要約

シミュレーションフレームワークは、ロボットアプリケーションの安全な開発において極めて重要な役割を果たします。
ただし、多くの場合、想定されているロボットシステムの異なるコンポーネントは、さまざまな環境/シミュレーターで最もよくシミュレートされます。
これは、プロジェクト全体を単一の統合ロボットフレームワークにシミュレートする上で重要な課題をもたらします。
具体的には、部分的にオープンまたは閉鎖シミュレータの場合、多くの場合、2つのコア制限が生じます。
i)指定されたロボット以外のシーンの俳優は、ROSやII)シーン内のオブジェクトのリアルタイム状態情報(ポーズ、速度など)の取得を防ぐことができないようなインターフェイスを介して、ランタイム中に制御することはできません。
この作業では、これらの制限に対処し、強力なシミュレーターSphinx(Parrot Droneが提供)によってシミュレートされた空中ドローンをGazebo Simulatorに統合するユースケースのソリューションについて説明します。
これは、既存のガゼボベースの環境に含まれるドローンの鏡面インスタンスを使用して達成します。
統合されたシミュレーション環境の有望なアプリケーションは、空中マルチロボットシナリオで一般的なターゲット追跡のタスクです。
したがって、当社の統合シミュレーションの有効性を実証するために、オウムのさまざまな動的追跡シナリオで提供されるデフォルトのPIDベースのコントローラーフレームワークを上回るモデル予測コントローラー(MPC)も実装します。

既存のガゼボベースのシミュレーションにANAFIドローンを含めることでソリューションをテストし、カスタマイズされたPIDコントローラーベースラインに対するシミュレーションおよび実際の追跡実験での厳密なテストを通じてMPCのパフォーマンスを評価します。
ソースコードは、https://github.com/robot-ception-group/anafi_simに公開されています。

要約(オリジナル)

Simulation frameworks play a pivotal role in the safe development of robotic applications. However, often different components of an envisioned robotic system are best simulated in different environments/simulators. This poses a significant challenge in simulating the entire project into a single integrated robotic framework. Specifically, for partially-open or closed-source simulators, often two core limitations arise. i) Actors in the scene other than the designated robots cannot be controlled during runtime via interfaces such as ROS and ii) retrieving real-time state information (such as pose, velocity etc.) of objects in the scene is prevented. In this work, we address these limitations and describe our solution for the use case of integrating aerial drones simulated by the powerful simulator Sphinx (provided by Parrot Drone) into the Gazebo simulator. We achieve this by means of a mirrored instance of a drone that is included into existing Gazebo-based environments. A promising application of our integrated simulation environment is the task of target tracking that is common in aerial multi-robot scenarios. Therefore, to demonstrate the effectiveness our our integrated simulation, we also implement a model predictive controller (MPC) that outperforms the default PID-based controller framework provided with the Parrot’s popular Anafi drone in various dynamic tracking scenarios thus enhancing the utility of the overall system. We test our solution by including the Anafi drone in an existing Gazebo-based simulation and evaluate the performance of the MPC through rigorous testing in simulated and real-world tracking experiments against a customized PID controller baseline. Source code is published on https://github.com/robot-perception-group/anafi_sim.

arxiv情報

著者 Pascal Goldschmid,Aamir Ahmad
発行日 2025-02-14 15:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Integrated Multi-Simulation Environments for Aerial Robotics Research はコメントを受け付けていません

Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding

要約

混合シェルブピッカールーティングの問題(MSPRP)は、倉庫物流における基本的な課題であり、ピッカーはSKUを効率的に取得するために混合シェルブ環境をナビゲートする必要があります。
従来のヒューリスティックと最適化ベースのアプローチは、スケーラビリティと闘っていますが、最近の機械学習方法は多くの場合、順次意思決定に依存しており、ソリューションの潜在性が高く、最適ではないエージェントの調整につながります。
この作業では、マルチエージェント補強学習を介してMSPRPのMIN-MAXバリアントを解くための新しい階層的および並列デコードアプローチを提案します。
私たちのアプローチは、エージェントアクションよりも共同分布を生成し、高速デコードと効果的なピッカー調整を可能にしますが、この方法では、多次元アクション空間での競合を回避するための順次アクション選択を導入します。
実験では、特に大規模および分散式インスタンスの場合、ソリューションの品質と推論速度の両方で最先端のパフォーマンスが示されています。
私たちのコードは、http://github.com/ltluttmann/mar4msprpで公開されています。

要約(オリジナル)

The Mixed-Shelves Picker Routing Problem (MSPRP) is a fundamental challenge in warehouse logistics, where pickers must navigate a mixed-shelves environment to retrieve SKUs efficiently. Traditional heuristics and optimization-based approaches struggle with scalability, while recent machine learning methods often rely on sequential decision-making, leading to high solution latency and suboptimal agent coordination. In this work, we propose a novel hierarchical and parallel decoding approach for solving the min-max variant of the MSPRP via multi-agent reinforcement learning. While our approach generates a joint distribution over agent actions, allowing for fast decoding and effective picker coordination, our method introduces a sequential action selection to avoid conflicts in the multi-dimensional action space. Experiments show state-of-the-art performance in both solution quality and inference speed, particularly for large-scale and out-of-distribution instances. Our code is publicly available at http://github.com/LTluttmann/marl4msprp.

arxiv情報

著者 Laurin Luttmann,Lin Xie
発行日 2025-02-14 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, stat.ML | Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding はコメントを受け付けていません

Spatial-aware decision-making with ring attractors in reinforcement learning systems

要約

このペーパーでは、神経回路のダイナミクスに触発された数学モデルであるリングアトラクタの統合を、強化学習(RL)アクション選択プロセスに統合します。
空間情報と不確実性をコードする専門の脳に触発された構造として機能するリングアトラクタは、RLの学習速度と精度を改善するための生物学的にもっともらしいメカニズムを提供します。
彼らは、行動空間を明示的にエンコードし、神経活動の組織を促進し、深い強化学習(DRL)の文脈でニューラルネットワーク全体で空間表現の分布を可能にすることでそうします。
たとえば、ロボット制御における回転角度間の連続性を保存するか、ゲームのような環境での戦術的な動き間の隣接。
アクション選択プロセスでのリングアトラクタの適用には、アクションをリング上の特定の場所にマッピングし、選択したアクションを神経活動に基づいて解読することが含まれます。
外因性モデルを構築し、DRLエージェントの一部としてそれらを統合することにより、リングアトラクタの適用を調査します。
私たちのアプローチは、Atari 100Kベンチマークで最先端のパフォーマンスを大幅に向上させ、選択された最先端のベースライン全体でパフォーマンスを53%増加させます。
https://anonymous.4open.science/r/ra_rl-8026で利用可能なコードベース。

要約(オリジナル)

This paper explores the integration of ring attractors, a mathematical model inspired by neural circuit dynamics, into the Reinforcement Learning (RL) action selection process. Serving as specialized brain-inspired structures that encode spatial information and uncertainty, ring attractors offer a biologically plausible mechanism to improve learning speed and accuracy in RL. They do so by explicitly encoding the action space, facilitating the organization of neural activity, and enabling the distribution of spatial representations across the neural network in the context of Deep Reinforcement Learning (DRL). For example, preserving the continuity between rotation angles in robotic control or adjacency between tactical moves in game-like environments. The application of ring attractors in the action selection process involves mapping actions to specific locations on the ring and decoding the selected action based on neural activity. We investigate the application of ring attractors by both building an exogenous model and integrating them as part of DRL agents. Our approach significantly improves state-of-the-art performance on the Atari 100k benchmark, achieving a 53\% increase in performance across selected state-of-the-art baselines. Codebase available at https://anonymous.4open.science/r/RA_RL-8026.

arxiv情報

著者 Marcos Negre Saura,Richard Allmendinger,Wei Pan,Theodore Papamarkou
発行日 2025-02-14 15:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Spatial-aware decision-making with ring attractors in reinforcement learning systems はコメントを受け付けていません

AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting

要約

事前に訓練された基礎モデル(FMS)は、単変量の時系列予測タスクで例外的なパフォーマンスを示しています。
ただし、機能間の複雑な依存関係の管理や予測の不確実性の定量化など、いくつかの実際的な課題が続いています。
この研究は、アダプターを導入することにより、これらの重要な制限に取り組むことを目的としています。
多変量タスクのための事前に訓練された単変量時系FMSの効果的な使用を促進する機能空間変換。
アダプターは、多変量入力を適切な潜在スペースに投影し、各次元にFMを個別に適用することにより動作します。
表現学習と部分的に確率的なベイジアンニューラルネットワークに関する文献に触発され、さまざまなアダプターと最適化/推論戦略を紹介します。
合成データセットと実際のデータセットの両方で実施さ​​れた実験は、アダプターの有効性を確認し、ベースライン方法と比較して、予測精度と不確実性の定量化の大幅な強化を示しています。
私たちのフレームワークは、アダプターを多変量コンテキストで時系列FMを活用するためのモジュール式、スケーラブル、および効果的なソリューションとして位置付け、それにより、実際のアプリケーションでの幅広い採用を促進します。
https://github.com/abenechehab/adaptsでコードをリリースします。

要約(オリジナル)

Pre-trained foundation models (FMs) have shown exceptional performance in univariate time series forecasting tasks. However, several practical challenges persist, including managing intricate dependencies among features and quantifying uncertainty in predictions. This study aims to tackle these critical limitations by introducing adapters; feature-space transformations that facilitate the effective use of pre-trained univariate time series FMs for multivariate tasks. Adapters operate by projecting multivariate inputs into a suitable latent space and applying the FM independently to each dimension. Inspired by the literature on representation learning and partially stochastic Bayesian neural networks, we present a range of adapters and optimization/inference strategies. Experiments conducted on both synthetic and real-world datasets confirm the efficacy of adapters, demonstrating substantial enhancements in forecasting accuracy and uncertainty quantification compared to baseline methods. Our framework, AdaPTS, positions adapters as a modular, scalable, and effective solution for leveraging time series FMs in multivariate contexts, thereby promoting their wider adoption in real-world applications. We release the code at https://github.com/abenechehab/AdaPTS.

arxiv情報

著者 Abdelhakim Benechehab,Vasilii Feofanov,Giuseppe Paolo,Albert Thomas,Maurizio Filippone,Balázs Kégl
発行日 2025-02-14 15:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting はコメントを受け付けていません

Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey

要約

異常または分散除外(OOD)サンプルの検出は、機械学習システムの信頼性と信頼性を維持するために重要です。
最近、大規模な言語モデル(LLM)は、自然言語処理だけでなく、高度な理解と生成能力のために、より広範なアプリケーションでも有効性を実証しています。
LLMSの異常とOOD検出への統合は、フィールドの従来のパラダイムからの大きな変化を示しています。
この調査では、LLMSのコンテキストでの異常とOOD検出の問題に焦点を当てています。
LLMSが果たす役割に基づいて、既存のアプローチを2つのクラスに分類する新しい分類法を提案します。
提案された分類法に続いて、各カテゴリの下で関連する研究についてさらに議論し、最後にこの分野での将来の研究のための潜在的な課題と方向について説明します。
また、関連する論文の最新の読書リストも提供しています。

要約(オリジナル)

Detecting anomalies or out-of-distribution (OOD) samples is critical for maintaining the reliability and trustworthiness of machine learning systems. Recently, Large Language Models (LLMs) have demonstrated their effectiveness not only in natural language processing but also in broader applications due to their advanced comprehension and generative capabilities. The integration of LLMs into anomaly and OOD detection marks a significant shift from the traditional paradigm in the field. This survey focuses on the problem of anomaly and OOD detection under the context of LLMs. We propose a new taxonomy to categorize existing approaches into two classes based on the role played by LLMs. Following our proposed taxonomy, we further discuss the related work under each of the categories and finally discuss potential challenges and directions for future research in this field. We also provide an up-to-date reading list of relevant papers.

arxiv情報

著者 Ruiyao Xu,Kaize Ding
発行日 2025-02-14 16:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey はコメントを受け付けていません

Probabilistic Super-Resolution for High-Fidelity Physical System Simulations with Uncertainty Quantification

要約

スーパー解像度(SR)は、低解像度データから物理システムの高忠実度シミュレーションを生成するための有望なツールであり、エンジニアリングアプリケーションで迅速かつ正確な予測を可能にします。
ただし、既存のディープラーニングベースのSRメソッドには、大きなラベル付きデータセットが必要であり、信頼性の高い不確実性の定量化(UQ)が不足しているため、実際のシナリオでの適用性が制限されます。
これらの課題を克服するために、統計的有限要素法とエネルギーベースの生成モデリングを活用する確率的SRフレームワークを提案します。
当社の方法により、固有のUQを使用した効率的な高解像度予測が可能になり、広範なラベル付きデータセットの必要性が排除されます。
このメソッドは、2Dポアソンの例で検証され、二気内補間のアップスケーリングと比較されます。
結果は、信頼できる不確実性の推定値を提供しながら、高解像度の数値ソルバーよりも計算速度を上げていることを示しています。

要約(オリジナル)

Super-resolution (SR) is a promising tool for generating high-fidelity simulations of physical systems from low-resolution data, enabling fast and accurate predictions in engineering applications. However, existing deep-learning based SR methods, require large labeled datasets and lack reliable uncertainty quantification (UQ), limiting their applicability in real-world scenarios. To overcome these challenges, we propose a probabilistic SR framework that leverages the Statistical Finite Element Method and energy-based generative modeling. Our method enables efficient high-resolution predictions with inherent UQ, while eliminating the need for extensive labeled datasets. The method is validated on a 2D Poisson example and compared with bicubic interpolation upscaling. Results demonstrate a computational speed-up over high-resolution numerical solvers while providing reliable uncertainty estimates.

arxiv情報

著者 Pengyu Zhang,Connor Duffin,Alex Glyn-Davies,Arnaud Vadeboncoeur,Mark Girolami
発行日 2025-02-14 16:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Probabilistic Super-Resolution for High-Fidelity Physical System Simulations with Uncertainty Quantification はコメントを受け付けていません

Adversarial Mixup Unlearning

要約

Machine Ulderningは、機械学習モデルから機密情報の削除を可能にすることにより、データプライバシーを保護することを目的とした研究の重要な分野です。
この分野でのユニークな課題の1つは、壊滅的なモデルから特定のデータを消去することを意図せずに消去することで、本質的な知識を削除し、モデルが再訓練された知識から大幅に逸脱することです。
これに対処するために、壊滅的な効果に影響を受けやすいデータをシミュレートする合成された混合サンプルを使用することにより、未学習プロセスを正規化する新しいアプローチを導入します。
私たちのアプローチの中心にあるのは、ジェネレーター・非公開のフレームワークであるMixunLearnです。そこでは、発電機が挑戦的な混乱の例を敵対的に生成し、これらの合成されたデータに基づいてターゲット情報を効果的に忘れます。
具体的には、最初に、発電機を敵対的な方向に訓練するための新しい対照的な目的を紹介します。つまり、忘れられるべき情報を明らかにし、本質的な知識を失いながら、リアナーに促す例を生成する例です。
その後、他の2つの対照的な損失条件に導かれた未サーナーは、合成された知識を失うことなく正確な不正行為を確保し、壊滅的な効果を克服するために、合成されたデータと実際のデータを共同で処理します。
ベンチマークデータセット全体の広範な評価は、この方法が最先端のアプローチを大幅に上回っており、マシンの解除に対する堅牢なソリューションを提供することを示しています。
この作業は、学習メカニズムの理解を深めるだけでなく、混合の増強で効果的な機械を解除するための基礎を築きます。

要約(オリジナル)

Machine unlearning is a critical area of research aimed at safeguarding data privacy by enabling the removal of sensitive information from machine learning models. One unique challenge in this field is catastrophic unlearning, where erasing specific data from a well-trained model unintentionally removes essential knowledge, causing the model to deviate significantly from a retrained one. To address this, we introduce a novel approach that regularizes the unlearning process by utilizing synthesized mixup samples, which simulate the data susceptible to catastrophic effects. At the core of our approach is a generator-unlearner framework, MixUnlearn, where a generator adversarially produces challenging mixup examples, and the unlearner effectively forgets target information based on these synthesized data. Specifically, we first introduce a novel contrastive objective to train the generator in an adversarial direction: generating examples that prompt the unlearner to reveal information that should be forgotten, while losing essential knowledge. Then the unlearner, guided by two other contrastive loss terms, processes the synthesized and real data jointly to ensure accurate unlearning without losing critical knowledge, overcoming catastrophic effects. Extensive evaluations across benchmark datasets demonstrate that our method significantly outperforms state-of-the-art approaches, offering a robust solution to machine unlearning. This work not only deepens understanding of unlearning mechanisms but also lays the foundation for effective machine unlearning with mixup augmentation.

arxiv情報

著者 Zhuoyi Peng,Yixuan Tang,Yi Yang
発行日 2025-02-14 16:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adversarial Mixup Unlearning はコメントを受け付けていません

Small Loss Bounds for Online Learning Separated Function Classes: A Gaussian Process Perspective

要約

過度に悲観的な計算下限を回避しながら実用的で効率的なアルゴリズムを開発するために、最近の研究は、さまざまな学習設定でオラクル効率の高いアルゴリズムを開発することに関心があります。
このような関心のある2つの設定は、オンラインと差別的にプライベートな学習です。
一見異なるように見えますが、これらの2つのフィールドは、それぞれのケースで成功したアルゴリズムが安定性保証を満たすという要件によって根本的に接続されています。
特に、最近の研究は、いわゆる小さな損失の境界を達成する有益な問題インスタンスにパフォーマンスが適応するオンライン学習のアルゴリズムには、プライバシーの差と同様の安定性の形を必要とすることが実証されています。
この作業では、Oracle効率の高いアルゴリズムがこの強力な安定性を実現できるようにする上で分離が果たす重要な役割を特定します。
$ \ rho $分離と呼ぶ我々の概念は、小セパレーターセットの存在や$ \ gamma $ apploxixabilityの最近の概念など、この強力な安定性を実施するためのいくつかの以前のアプローチを一般化および統合します。
私たちは、以前の仕事よりも高い一般性の改善されたレートで小さな損失の境界を達成できるOracle効率の高いアルゴリズムと、私たちの分離条件下で再び最適なレートを達成する差別的にプライベートな学習のバリアントを提示します。
そうすることで、以前の作業を強化および一般化するガウスプロセスのミニマイズの新しい安定性結果を証明します。

要約(オリジナル)

In order to develop practical and efficient algorithms while circumventing overly pessimistic computational lower bounds, recent work has been interested in developing oracle-efficient algorithms in a variety of learning settings. Two such settings of particular interest are online and differentially private learning. While seemingly different, these two fields are fundamentally connected by the requirement that successful algorithms in each case satisfy stability guarantees; in particular, recent work has demonstrated that algorithms for online learning whose performance adapts to beneficial problem instances, attaining the so-called small-loss bounds, require a form of stability similar to that of differential privacy. In this work, we identify the crucial role that separation plays in allowing oracle-efficient algorithms to achieve this strong stability. Our notion, which we term $\rho$-separation, generalizes and unifies several previous approaches to enforcing this strong stability, including the existence of small-separator sets and the recent notion of $\gamma$-approximability. We present an oracle-efficient algorithm that is capable of achieving small-loss bounds with improved rates in greater generality than previous work, as well as a variant for differentially private learning that attains optimal rates, again under our separation condition. In so doing, we prove a new stability result for minimizers of a Gaussian process that strengthens and generalizes previous work.

arxiv情報

著者 Adam Block,Abhishek Shetty
発行日 2025-02-14 16:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Small Loss Bounds for Online Learning Separated Function Classes: A Gaussian Process Perspective はコメントを受け付けていません

A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees

要約

Lipschitz連続ヘッセンを使用して、非凸関数の$ \ epsilon $ $ -Stationary Pointを見つける問題を検討し、現在および以前の勾配から構築された新しいクラスの正規化された正規化されたNewtonメソッドを提案します。
このメソッドは、最近開発された線形コンジュゲート勾配アプローチを負の曲率モニターで活用して、正規化されたニュートン方程式を解決します。
特に、私たちのアルゴリズムは適応的であり、ヘシアンのリプシッツ定数の事前知識を必要とせず、$ o(\ epsilon^{ – \ frac {3} {2}}) + \ tilde o(1)のグローバルな複雑さを達成します。
$ 2次のOracle Calls、および$ \ Tilde O(\ epsilon^{ – \ frac {7} {4}})$ $ hessian-vector製品の$。
さらに、繰り返しがヘシアンが明確になるポイントに収束すると、この方法は二次局所収束を示します。
予備的な数値結果は、アルゴリズムの競争力を示しています。

要約(オリジナル)

We consider the problem of finding an $\epsilon$-stationary point of a nonconvex function with a Lipschitz continuous Hessian and propose a quadratic regularized Newton method incorporating a new class of regularizers constructed from the current and previous gradients. The method leverages a recently developed linear conjugate gradient approach with a negative curvature monitor to solve the regularized Newton equation. Notably, our algorithm is adaptive, requiring no prior knowledge of the Lipschitz constant of the Hessian, and achieves a global complexity of $O(\epsilon^{-\frac{3}{2}}) + \tilde O(1)$ in terms of the second-order oracle calls, and $\tilde O(\epsilon^{-\frac{7}{4}})$ for Hessian-vector products, respectively. Moreover, when the iterates converge to a point where the Hessian is positive definite, the method exhibits quadratic local convergence. Preliminary numerical results illustrate the competitiveness of our algorithm.

arxiv情報

著者 Yuhao Zhou,Jintao Xu,Chenglong Bao,Chao Ding,Jun Zhu
発行日 2025-02-14 16:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | A Regularized Newton Method for Nonconvex Optimization with Global and Local Complexity Guarantees はコメントを受け付けていません