PATH: A Discrete-sequence Dataset for Evaluating Online Unsupervised Anomaly Detection Approaches for Multivariate Time Series

要約

多変量時系列のベンチマーク異常検出アプローチは、高品質のデータセットが不足しているため、困難なタスクです。
現在公開されているデータセットは小さすぎ、多様ではなく、些細な異常を特徴としており、この研究分野での測定可能な進歩を妨げます。
ソリューションを提案します。多変量、動的、可変状態特性を含む自動車パワートレインの現実的な動作を反映する最先端のシミュレーションツールを介して生成される多様で、広範囲で、非些細なデータセットです。
さらに、データセットは離散シーケンスの問題を表しており、これは以前に推定されていた文献のソリューションによって承認されていないままです。
監視されていないおよび半監視された異常検出設定の両方に対応するために、および時系列の生成と予測の両方で、タスクに応じて、汚染されたクリーンバージョンでトレーニングとテストサブセットが提供されるデータセットのさまざまなバージョンを利用可能にします。
また、決定論的および変動自動エンコーダーに基づいた一連のアプローチのベースライン結果、およびノンパラメトリックアプローチも提供します。
予想通り、ベースライン実験は、データセットの半監視バージョンで訓練されたアプローチが、監視されていないカウンターパートを上回ることを示しており、汚染されたトレーニングデータに対してより堅牢なアプローチの必要性を強調しています。
さらに、結果は、使用されるしきい値が検出性能に大きな影響を与える可能性があるため、ラベル付きデータを必要とせずに適切なしきい値を見つけるために、より多くの作業を方法に投資する必要があることを示しています。

要約(オリジナル)

Benchmarking anomaly detection approaches for multivariate time series is a challenging task due to a lack of high-quality datasets. Current publicly available datasets are too small, not diverse and feature trivial anomalies, which hinders measurable progress in this research area. We propose a solution: a diverse, extensive, and non-trivial dataset generated via state-of-the-art simulation tools that reflects realistic behaviour of an automotive powertrain, including its multivariate, dynamic and variable-state properties. Additionally, our dataset represents a discrete-sequence problem, which remains unaddressed by previously-proposed solutions in literature. To cater for both unsupervised and semi-supervised anomaly detection settings, as well as time series generation and forecasting, we make different versions of the dataset available, where training and test subsets are offered in contaminated and clean versions, depending on the task. We also provide baseline results from a selection of approaches based on deterministic and variational autoencoders, as well as a non-parametric approach. As expected, the baseline experimentation shows that the approaches trained on the semi-supervised version of the dataset outperform their unsupervised counterparts, highlighting a need for approaches more robust to contaminated training data. Furthermore, results show that the threshold used can have a large influence on detection performance, hence more work needs to be invested in methods to find a suitable threshold without the need for labelled data.

arxiv情報

著者 Lucas Correia,Jan-Christoph Goos,Thomas Bäck,Anna V. Kononova
発行日 2025-04-08 15:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, cs.SY, eess.SY | PATH: A Discrete-sequence Dataset for Evaluating Online Unsupervised Anomaly Detection Approaches for Multivariate Time Series はコメントを受け付けていません

Decentralizing AI Memory: SHIMI, a Semantic Hierarchical Memory Index for Scalable Agent Reasoning

要約

検索された生成(RAG)およびベクターベースの検索は、AIシステムのメモリの基礎ツールになりましたが、特に分散環境では、抽象化、スケーラビリティ、セマンティック精度に苦労しています。
Shimi(セマンティック階層メモリインデックス)は、知識を動的に構造化された概念の階層としてモデル化する統一されたアーキテクチャであり、エージェントが表面の類似性ではなく意味に基づいて情報を取得できるようにします。
Shimiはメモリを階層化されたセマンティックノードに整理し、抽象的な意図から特定のエンティティへのトップダウントラバーサルをサポートし、より正確で説明可能な検索を提供します。
重大なことに、シミは分散型生態系のためにネイティブに設計されており、エージェントはローカルメモリツリーを維持し、ネットワーク全体で非同期に同期します。
メルクルダグの概要、ブルームフィルター、およびCRDTスタイルの競合解決を活用して、最小限のオーバーヘッドで部分的な同期を可能にする軽量同期プロトコルを導入します。
分散エージェントコラボレーションを含むベンチマーク実験とユースケースを通じて、検索精度、セマンティックフィデリティ、およびスケーラビリティにおけるシミの利点を示します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) and vector-based search have become foundational tools for memory in AI systems, yet they struggle with abstraction, scalability, and semantic precision – especially in decentralized environments. We present SHIMI (Semantic Hierarchical Memory Index), a unified architecture that models knowledge as a dynamically structured hierarchy of concepts, enabling agents to retrieve information based on meaning rather than surface similarity. SHIMI organizes memory into layered semantic nodes and supports top-down traversal from abstract intent to specific entities, offering more precise and explainable retrieval. Critically, SHIMI is natively designed for decentralized ecosystems, where agents maintain local memory trees and synchronize them asynchronously across networks. We introduce a lightweight sync protocol that leverages Merkle-DAG summaries, Bloom filters, and CRDT-style conflict resolution to enable partial synchronization with minimal overhead. Through benchmark experiments and use cases involving decentralized agent collaboration, we demonstrate SHIMI’s advantages in retrieval accuracy, semantic fidelity, and scalability – positioning it as a core infrastructure layer for decentralized cognitive systems.

arxiv情報

著者 Tooraj Helmi
発行日 2025-04-08 15:31:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Decentralizing AI Memory: SHIMI, a Semantic Hierarchical Memory Index for Scalable Agent Reasoning はコメントを受け付けていません

QGen Studio: An Adaptive Question-Answer Generation, Training and Evaluation Platform

要約

QGEN Studio:Adaptive Andwer Generation、Training、および評価プラットフォームを紹介します。
QGEN Studioを使用すると、ユーザーは大規模な言語モデル(LLM)を活用して、この合成データにカスタムの質問回答データセットと微調整モデルを作成できます。
このプロセスを合理化するために、データセットビューアーとモデルエクスプローラーを備えています。
データセットビューアーは、キーメトリックを提供し、QAペアが生成されるコンテキストを視覚化し、データ品質に関する洞察を提供します。
モデルエクスプローラーはモデルの比較をサポートし、ユーザーが他のモデルに対して訓練されたLLMのパフォーマンスをコントラストできるようにし、パフォーマンスベンチマークと改良をサポートします。
QGEN Studioは、QAデータセットとトレーニングスケーラブルなドメイン適応可能なモデルを生成するためのインタラクティブなエンドツーエンドソリューションを提供します。
スタジオはまもなくオープンソーシングされ、ユーザーがローカルに展開できるようになります。

要約(オリジナル)

We present QGen Studio: an adaptive question-answer generation, training, and evaluation platform. QGen Studio enables users to leverage large language models (LLMs) to create custom question-answer datasets and fine-tune models on this synthetic data. It features a dataset viewer and model explorer to streamline this process. The dataset viewer provides key metrics and visualizes the context from which the QA pairs are generated, offering insights into data quality. The model explorer supports model comparison, allowing users to contrast the performance of their trained LLMs against other models, supporting performance benchmarking and refinement. QGen Studio delivers an interactive, end-to-end solution for generating QA datasets and training scalable, domain-adaptable models. The studio will be open-sourced soon, allowing users to deploy it locally.

arxiv情報

著者 Movina Moses,Mohab Elkaref,James Barry,Shinnosuke Tanaka,Vishnudev Kuruvanthodi,Nathan Herr,Campbell D Watson,Geeth De Mel
発行日 2025-04-08 15:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | QGen Studio: An Adaptive Question-Answer Generation, Training and Evaluation Platform はコメントを受け付けていません

A Multimedia Analytics Model for the Foundation Model Era

要約

基礎モデルとエージェント人工知能の急速な進歩は、人間と分析システムの間のより豊かで洗練された相互作用を可能にすることにより、マルチメディア分析を変換しています。
ただし、視覚およびマルチメディア分析の既存の概念モデルは、これらの強力なAIパラダイムによって導入された複雑さを適切にキャプチャしません。
このギャップを埋めるために、基礎モデルの時代向けに特別に設計された包括的なマルチメディア分析モデルを提案します。
視覚分析、マルチメディア分析、知識生成、分析タスクの定義、混合インサイタブガイダンス、および人間のループ強化学習から確立されたフレームワークに基づいて、我々のモデルは、技術的および概念的な視点からの視覚分析エージェントに基づく統合された人間-AIチームのチーム化を強調しています。
モデルの中心は、エキスパートユーザーと半自律分析プロセスの間のシームレスでありながら明示的に分離可能な相互作用チャネルであり、ユーザーの意図とAIの動作の間の継続的な調整を保証します。
このモデルは、インテリジェンス分析、調査ジャーナリズム、および複雑でハイステークスデータを処理する他の分野などの繊細なドメインにおける実用的な課題に対処しています。
詳細なケーススタディを通じて、私たちのモデルがマルチメディア分析ソリューションのより深い理解とターゲットの改善を促進する方法を説明します。
エキスパートユーザーがAIを搭載したマルチメディア分析システムと最適に対話し、ガイドする方法を明示的にキャプチャすることにより、当社の概念フレームワークは、システム設計、比較、将来の研究の明確な方向性を設定します。

要約(オリジナル)

The rapid advances in Foundation Models and agentic Artificial Intelligence are transforming multimedia analytics by enabling richer, more sophisticated interactions between humans and analytical systems. Existing conceptual models for visual and multimedia analytics, however, do not adequately capture the complexity introduced by these powerful AI paradigms. To bridge this gap, we propose a comprehensive multimedia analytics model specifically designed for the foundation model era. Building upon established frameworks from visual analytics, multimedia analytics, knowledge generation, analytic task definition, mixed-initiative guidance, and human-in-the-loop reinforcement learning, our model emphasizes integrated human-AI teaming based on visual analytics agents from both technical and conceptual perspectives. Central to the model is a seamless, yet explicitly separable, interaction channel between expert users and semi-autonomous analytical processes, ensuring continuous alignment between user intent and AI behavior. The model addresses practical challenges in sensitive domains such as intelligence analysis, investigative journalism, and other fields handling complex, high-stakes data. We illustrate through detailed case studies how our model facilitates deeper understanding and targeted improvement of multimedia analytics solutions. By explicitly capturing how expert users can optimally interact with and guide AI-powered multimedia analytics systems, our conceptual framework sets a clear direction for system design, comparison, and future research.

arxiv情報

著者 Marcel Worring,Jan Zahálka,Stef van den Elzen,Maximilian Fischer,Daniel Keim
発行日 2025-04-08 15:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MM | A Multimedia Analytics Model for the Foundation Model Era はコメントを受け付けていません

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

要約

長型のビデオ処理は、拡張された時間シーケンスを処理するための高い計算コストにより、視覚言語モデル(VLM)に根本的に挑戦します。
既存のトークン剪定と機能のマージメソッドは、多くの場合、重要な時間的依存関係を犠牲にしたり、セマンティック情報を希釈したりします。
差別的な蒸留を導入します。これは、冗長性を抑制しながら、タスク関連の情報を体系的に保存する原則的なアプローチです。
この原則に基づいて、2つのキーメカニズムを介して「混合精度」で1時間のビデオを処理する階層的なビデオ言語モデルであるVilampを開発します。
したがって、Vilampは、キーフレームの完全な情報を保持しながら、キーフレーム以外の機能を最も顕著な機能に削減し、混合精液トレーニングに似ています。
広範な実験は、4つのビデオ理解ベンチマークにわたるVilampの優れたパフォーマンスを示しています。
特に、Vilampは単一のNVIDIA A100 GPUで超長いビデオ(最大10kフレーム)を処理し、最先端のパフォーマンスを維持しながら、かなりの計算効率を達成できます。

要約(オリジナル)

Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at “mixed precision” through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP’s superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2025-04-08 15:36:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation はコメントを受け付けていません

ARLO: A Tailorable Approach for Transforming Natural Language Software Requirements into Architecture using LLMs

要約

自然言語(NL)で表現されるソフトウェア要件は、しばしば冗長性、曖昧さ、矛盾に苦しんでいます。
これにより、システムの適切なアーキテクチャを選択したり、さまざまなアーキテクチャの代替品を評価するなど、さまざまな課題が生まれます。
アーキテクチャにNL要件をマッピングするタスクを達成するために人間の専門知識に依存することは、時間がかかり、エラーが発生しやすいことです。
このペーパーでは、(1)システムのNL要件のセットを活用することにより、このタスクを自動化するアプローチ、(2)建築的に関連するソフトウェア品質属性を指定する既存の標準、および(3)容易に利用可能な大手言語モデル(LLM)を指定するアプローチを提案します。
具体的には、Arloは、アーキテクチャに関連する特定のシステムのNL要件のサブセットを決定し、そのサブセットをマップしてアーキテクチャの選択のマトリックスにマップします。
Arloは、現在の要件の最適なアーキテクチャを決定するために、Architectural-Coice Matrixに整数線形プログラミングを適用しています。
一連の実際の例を使用して、Arloの有効性を示します。
(1)選択されたアーキテクチャの選択を要件にまで追跡する能力、および(2)システムのアーキテクチャに特定の影響を与えるNL要件を分離する能力を強調します。
これにより、そこに表明された要件と制約に基づいて、識別、比較評価、および代替アーキテクチャの選択の調査が可能になります。

要約(オリジナル)

Software requirements expressed in natural language (NL) frequently suffer from verbosity, ambiguity, and inconsistency. This creates a range of challenges, including selecting an appropriate architecture for a system and assessing different architectural alternatives. Relying on human expertise to accomplish the task of mapping NL requirements to architecture is time-consuming and error-prone. This paper proposes ARLO, an approach that automates this task by leveraging (1) a set of NL requirements for a system, (2) an existing standard that specifies architecturally relevant software quality attributes, and (3) a readily available Large Language Model (LLM). Specifically, ARLO determines the subset of NL requirements for a given system that is architecturally relevant and maps that subset to a tailorable matrix of architectural choices. ARLO applies integer linear programming on the architectural-choice matrix to determine the optimal architecture for the current requirements. We demonstrate ARLO’s efficacy using a set of real-world examples. We highlight ARLO’s ability (1) to trace the selected architectural choices to the requirements and (2) to isolate NL requirements that exert a particular influence on a system’s architecture. This allows the identification, comparative assessment, and exploration of alternative architectural choices based on the requirements and constraints expressed therein.

arxiv情報

著者 Tooraj Helmi
発行日 2025-04-08 15:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | ARLO: A Tailorable Approach for Transforming Natural Language Software Requirements into Architecture using LLMs はコメントを受け付けていません

Model Inversion Attack against Federated Unlearning

要約

「忘れられる権利」に関連する規制の導入により、Federated Learning(FL)は新しいプライバシーコンプライアンスの課題に直面しています。
これらの課題に対処するために、研究者はフェデレーション・ノーリング(FU)を提案しています。
ただし、既存のFU研究は、主に学習の効率を改善することに焦点を当てており、これらの方法に固有の潜在的なプライバシーの脆弱性にあまり注意を払っていません。
このギャップに対処するために、フロリダ州のグラデーション反転攻撃からインスピレーションを引き出し、連邦政府の非学習反転攻撃(FUIA)を提案します。
FUIAは、FUに関連するプライバシー漏れリスクの包括的な分析を提供することを目指して、3種類のFU(サンプルの学習、クライアントの学習、およびクラスの学習の解除)向けに特別に設計されています。
FUIAでは、サーバーは正直であるが勇気のある攻撃者として機能し、忘れられたデータの機能とラベルを公開するために学習の前後にモデルの違いを記録および悪用します。
FUIAは、忘れられたデータのプライバシーを大幅に漏らし、あらゆる種類のFUをターゲットにすることができます。
この攻撃は、特定のデータの影響を排除するためのFUの目標と矛盾し、代わりにその脆弱性を活用して忘れられたデータを回復し、プライバシーの欠陥を公開します。
広範な実験結果は、FUIAが忘れられたデータの個人情報を効果的に明らかにできることを示しています。
このプライバシー漏れを軽減するために、2つの潜在的な防御方法も調査しますが、これらは学習の有効性と未学習モデルの使いやすさの低下を犠牲にして提供されます。

要約(オリジナル)

With the introduction of regulations related to the “right to be forgotten’, federated learning (FL) is facing new privacy compliance challenges. To address these challenges, researchers have proposed federated unlearning (FU). However, existing FU research has primarily focused on improving the efficiency of unlearning, with less attention paid to the potential privacy vulnerabilities inherent in these methods. To address this gap, we draw inspiration from gradient inversion attacks in FL and propose the federated unlearning inversion attack (FUIA). The FUIA is specifically designed for the three types of FU (sample unlearning, client unlearning, and class unlearning), aiming to provide a comprehensive analysis of the privacy leakage risks associated with FU. In FUIA, the server acts as an honest-but-curious attacker, recording and exploiting the model differences before and after unlearning to expose the features and labels of forgotten data. FUIA significantly leaks the privacy of forgotten data and can target all types of FU. This attack contradicts the goal of FU to eliminate specific data influence, instead exploiting its vulnerabilities to recover forgotten data and expose its privacy flaws. Extensive experimental results show that FUIA can effectively reveal the private information of forgotten data. To mitigate this privacy leakage, we also explore two potential defense methods, although these come at the cost of reduced unlearning effectiveness and the usability of the unlearned model.

arxiv情報

著者 Lei Zhou,Youwen Zhu
発行日 2025-04-08 15:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Model Inversion Attack against Federated Unlearning はコメントを受け付けていません

Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups

要約

大規模な言語モデル(LLM)は、特定のグループに対する不均衡なバイアスを示すことが示されています。
ただし、リスクのある集団に対するLLMによる挑発されていない標的攻撃の研究は、露出度が低いままです。
私たちの論文は、3つの新しい貢献を示しています。(1)高度に脆弱なメンタルヘルスグループに対するLLM生成攻撃の明示的な評価。
(2)相対バイアスの伝播を研究するためのネットワークベースのフレームワーク。
(3)これらの攻撃から生じるスティグマ化の相対的な程度の評価。
最近リリースされた大規模なバイアス監査データセットの分析により、メンタルヘルスエンティティは、攻撃の物語ネットワーク内の中心的な位置を占めることが明らかになりました。
スティグマ化理論の社会学的基盤から導き出して、私たちのスティグマ化分析は、生成チェーンの初期ターゲットと比較して、メンタルヘルス障害関連のターゲットの標識成分の増加を示しています。
まとめると、これらの洞察は、有害な言説を高め、緩和に適したアプローチの必要性を強調するために、大きな言語モデルの構造的偏見に光を当てています。

要約(オリジナル)

Large Language Models (LLMs) have been shown to demonstrate imbalanced biases against certain groups. However, the study of unprovoked targeted attacks by LLMs towards at-risk populations remains underexplored. Our paper presents three novel contributions: (1) the explicit evaluation of LLM-generated attacks on highly vulnerable mental health groups; (2) a network-based framework to study the propagation of relative biases; and (3) an assessment of the relative degree of stigmatization that emerges from these attacks. Our analysis of a recently released large-scale bias audit dataset reveals that mental health entities occupy central positions within attack narrative networks, as revealed by a significantly higher mean centrality of closeness (p-value = 4.06e-10) and dense clustering (Gini coefficient = 0.7). Drawing from sociological foundations of stigmatization theory, our stigmatization analysis indicates increased labeling components for mental health disorder-related targets relative to initial targets in generation chains. Taken together, these insights shed light on the structural predilections of large language models to heighten harmful discourse and highlight the need for suitable approaches for mitigation.

arxiv情報

著者 Rijul Magu,Arka Dutta,Sean Kim,Ashiqur R. KhudaBukhsh,Munmun De Choudhury
発行日 2025-04-08 15:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, J.4 | Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups はコメントを受け付けていません

Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks

要約

このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0を検出するための新しいアプローチを紹介し、スペクトログラム画像からピッチを直接推定します。
私たちの新しいアプローチは、非常に優れた検出精度を示しています。
予測されたピッチの等高線の合計92%は、真のピッチの輪郭と強いまたは中程度の相関を持っています。
さらに、新しいアプローチと他の最先端のCNNメソッドとの実験的な比較により、このアプローチは、さまざまな信号対雑音比条件で検出率を約5%増強できることが明らかになりました。

要約(オリジナル)

This paper presents a novel approach to detect F0 through Convolutional Neural Networks and image processing techniques to directly estimate pitch from spectrogram images. Our new approach demonstrates a very good detection accuracy; a total of 92% of predicted pitch contours have strong or moderate correlations to the true pitch contours. Furthermore, the experimental comparison between our new approach and other state-of-the-art CNN methods reveals that our approach can enhance the detection rate by approximately 5% across various Signal-to-Noise Ratio conditions.

arxiv情報

著者 Xufang Zhao,Omer Tsimhoni
発行日 2025-04-08 16:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks はコメントを受け付けていません

A stochastic first-order method with multi-extrapolated momentum for highly smooth unconstrained optimization

要約

この論文では、目的関数が高次の滑らかさを示す制約のない確率的最適化問題を検討します。
具体的には、各反復で複数の外挿が実行される多励起運動量を備えた新しい確率的1次方法(SFOM)を提案し、その後、これらの外挿に基づく運動量更新が行われます。
提案されたSFOMは、目的関数$ f $の高次の滑らかさを活用することにより、最適化を加速できることを実証します。
$ p $ f $の$ p $の派生物が$ p \ ge2 $のリプシッツ連続であると仮定すると、追加の軽度の仮定の下で、私たちの方法は$ \ widetilde {\ mathcal {o}}}}(\ epsilon^{ – (3p+1)/p+1)$ x $ x $ $ xを見つけるためのサンプルの複雑さを達成することを確立します。
$ \ mathbb {e} [\ | \ nabla f(x)\ |] \ le \ epsilon $。
私たちの知る限り、これは加速のための目的関数の任意の順序性滑らかさを活用した最初のSFOMであり、平均二乗滑らかさ条件を想定せずに最もよく知られている結果を改善するサンプルの複雑さをもたらします。
予備的な数値実験は、当社の方法の実用的なパフォーマンスを検証し、理論的な調査結果をサポートします。

要約(オリジナル)

In this paper, we consider an unconstrained stochastic optimization problem where the objective function exhibits high-order smoothness. Specifically, we propose a new stochastic first-order method (SFOM) with multi-extrapolated momentum, in which multiple extrapolations are performed in each iteration, followed by a momentum update based on these extrapolations. We demonstrate that the proposed SFOM can accelerate optimization by exploiting the high-order smoothness of the objective function $f$. Assuming that the $p$th-order derivative of $f$ is Lipschitz continuous for some $p\ge2$, and under additional mild assumptions, we establish that our method achieves a sample complexity of $\widetilde{\mathcal{O}}(\epsilon^{-(3p+1)/p})$ for finding a point $x$ such that $\mathbb{E}[\|\nabla f(x)\|]\le\epsilon$. To the best of our knowledge, this is the first SFOM to leverage arbitrary-order smoothness of the objective function for acceleration, resulting in a sample complexity that improves upon the best-known results without assuming the mean-squared smoothness condition. Preliminary numerical experiments validate the practical performance of our method and support our theoretical findings.

arxiv情報

著者 Chuan He
発行日 2025-04-08 16:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 49M05, 49M37, 90C25, 90C30, cs.AI, cs.LG, math.OC | A stochastic first-order method with multi-extrapolated momentum for highly smooth unconstrained optimization はコメントを受け付けていません