Operator Learning: A Statistical Perspective

要約

演算子学習は、無限次元関数空間間のマッピングを近似するための科学計算の強力なツールとして登場した。演算子学習の主な応用は、偏微分方程式(PDE)の解演算子の代理モデルの開発である。また、これらの手法は、数学的モデルが知られていなくても、実験データからシステムの振る舞いをモデル化するブラックボックス・シミュレータの開発にも利用できる。本稿では、まず作用素学習を関数から関数への回帰問題として定式化し、この分野における最近の動向をレビューする。また、PDEに特化した演算子学習についても議論し、物理的・数学的制約をアーキテクチャ設計やトレーニングプロセスに組み込むための戦略について概説する。最後に、能動的なデータ収集や厳密な不確実性定量化フレームワークの開発など、今後の重要な方向性を強調して終わる。

要約(オリジナル)

Operator learning has emerged as a powerful tool in scientific computing for approximating mappings between infinite-dimensional function spaces. A primary application of operator learning is the development of surrogate models for the solution operators of partial differential equations (PDEs). These methods can also be used to develop black-box simulators to model system behavior from experimental data, even without a known mathematical model. In this article, we begin by formalizing operator learning as a function-to-function regression problem and review some recent developments in the field. We also discuss PDE-specific operator learning, outlining strategies for incorporating physical and mathematical constraints into architecture design and training processes. Finally, we end by highlighting key future directions such as active data collection and the development of rigorous uncertainty quantification frameworks.

arxiv情報

著者 Unique Subedi,Ambuj Tewari
発行日 2025-04-04 14:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | Operator Learning: A Statistical Perspective はコメントを受け付けていません

FEASE: Shallow AutoEncoding Recommender with Cold Start Handling via Side Features

要約

ユーザーとアイテムのコールドスタートは、レコメンデーションシステムの産業応用において重要な課題となっている。ユーザーとアイテムのインタラクションデータをメタデータで補完することは一般的な解決策であるが、多くの場合、新たなバイアスを導入する代償を払うことになる。本研究では、このようなコールドスタートの問題に対処するために、ユーザーとアイテム側の情報をシームレスに統合する拡張EASEモデル、すなわちFEASEを導入する。我々のオートエンコーダーベースの方法は、コールドアイテムの豊富なコンテンツ信号を活用しながら、データが乏しい環境でのユーザー表現を洗練させる閉形式の解を生成する。重要な点として、我々の手法は、余分なバイアスを発生させることなく、コールドスタートアイテムを効果的に推薦し、コールドスタートユーザーを処理することでバランスを取り、暖かい環境においても強力なパフォーマンスを維持する。実験結果は、従来の協調フィルタリングアプローチと比較して、推薦精度と頑健性が向上していることを示している。さらに、我々のモデルは将来の比較研究のための強力なベースラインとして役立つ。

要約(オリジナル)

User and item cold starts present significant challenges in industrial applications of recommendation systems. Supplementing user-item interaction data with metadata is a common solution-but often at the cost of introducing additional biases. In this work, we introduce an augmented EASE model, i.e. FEASE, that seamlessly integrates both user and item side information to address these cold start issues. Our straightforward, autoencoder-based method produces a closed-form solution that leverages rich content signals for cold items while refining user representations in data-sparse environments. Importantly, our method strikes a balance by effectively recommending cold start items and handling cold start users without incurring extra bias, and it maintains strong performance in warm settings. Experimental results demonstrate improved recommendation accuracy and robustness compared to previous collaborative filtering approaches. Moreover, our model serves as a strong baseline for future comparative studies.

arxiv情報

著者 Edward DongBo Cui,Lu Zhang,William Ping-hsun Lee
発行日 2025-04-04 15:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IR, cs.LG | FEASE: Shallow AutoEncoding Recommender with Cold Start Handling via Side Features はコメントを受け付けていません

Structured Matrix Learning under Arbitrary Entrywise Dependence and Estimation of Markov Transition Kernel

要約

構造化行列推定の問題は、主に強いノイズ依存性の仮定の下で研究されてきた。本論文では、ノイズ行列がエントリ間に任意の依存性を持つ任意の結合分布に由来する可能性がある、ノイズ低ランク+スパース行列回復の一般的な枠組みを考察する。我々は、非干渉性制約付き最小二乗推定量を提案し、様々なノイズ分布の下で、決定論的下界とマッチング最小リスクの両方の意味で、その厳密性を証明する。これを達成するために、我々は、2つの任意の低ランクインコヒーレント行列間の差は、そのエントリに渡ってエネルギーを拡散しなければならない、言い換えれば、スパースであってはならないという新しい結果を確立する。次に、いくつかの重要な統計的機械学習問題への我々のフレームワークの応用を紹介する。構造化マルコフ遷移カーネルの推定問題において、提案手法は最小最適性を達成し、その結果は強化学習において重要な要素である条件付き平均演算子の推定にも拡張可能である。また、マルチタスク回帰や構造化共分散推定への応用も示す。この困難な最適化問題を近似的に解くために、交互最小化アルゴリズムを提案する。数値結果は、数ステップで収束する我々の手法の有効性を裏づける。

要約(オリジナル)

The problem of structured matrix estimation has been studied mostly under strong noise dependence assumptions. This paper considers a general framework of noisy low-rank-plus-sparse matrix recovery, where the noise matrix may come from any joint distribution with arbitrary dependence across entries. We propose an incoherent-constrained least-square estimator and prove its tightness both in the sense of deterministic lower bound and matching minimax risks under various noise distributions. To attain this, we establish a novel result asserting that the difference between two arbitrary low-rank incoherent matrices must spread energy out across its entries; in other words, it cannot be too sparse, which sheds light on the structure of incoherent low-rank matrices and may be of independent interest. We then showcase the applications of our framework to several important statistical machine learning problems. In the problem of estimating a structured Markov transition kernel, the proposed method achieves the minimax optimality and the result can be extended to estimating the conditional mean operator, a crucial component in reinforcement learning. The applications to multitask regression and structured covariance estimation are also presented. We propose an alternating minimization algorithm to approximately solve the potentially hard optimization problem. Numerical results corroborate the effectiveness of our method which typically converges in a few steps.

arxiv情報

著者 Jinhang Chai,Jianqing Fan
発行日 2025-04-04 15:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Structured Matrix Learning under Arbitrary Entrywise Dependence and Estimation of Markov Transition Kernel はコメントを受け付けていません

Hierarchical Knowledge Structuring for Effective Federated Learning in Heterogeneous Environments

要約

連携学習は、個々のデータのプライバシーを維持しながら、分散したエンティティ間で協調的なモデル学習を可能にする。連携学習における重要な課題は、ローカルクライアントのためのモデルのパーソナライゼーションと、グローバルモデルのための汎化のバランスをとることである。最近の取り組みでは、ロジットベースの知識集約と蒸留を活用して、これらの問題を克服している。しかし、多様なクライアントにまたがるデータの非IID的性質と、クライアントのデータ分布の不均衡のため、ロジットを直接集約すると、しばしば個々のクライアントに適用できない偏った知識が生成され、ローカル学習の収束を妨げる。この問題を解決するために、我々は、サンプルごとの個別化された洞察からクラスごとのグローバル化された知識までのロジットを表現するために、サンプルロジットを多粒度コードブックに定式化する階層的知識構造化(HKS)フレームワークを提案する。教師なしボトムアップクラスタリング法は、グローバルサーバーがローカルクライアントに多粒度応答を提供することを可能にするために活用される。これらの応答により、ローカルな訓練は教師あり学習の目的とグローバルな汎化の制約を統合することができ、その結果、より頑健な表現が得られ、後続の訓練ラウンドにおける知識共有が改善される。提案するフレームワークの有効性は、様々なベンチマークとモデルアーキテクチャで検証されている。

要約(オリジナル)

Federated learning enables collaborative model training across distributed entities while maintaining individual data privacy. A key challenge in federated learning is balancing the personalization of models for local clients with generalization for the global model. Recent efforts leverage logit-based knowledge aggregation and distillation to overcome these issues. However, due to the non-IID nature of data across diverse clients and the imbalance in the client’s data distribution, directly aggregating the logits often produces biased knowledge that fails to apply to individual clients and obstructs the convergence of local training. To solve this issue, we propose a Hierarchical Knowledge Structuring (HKS) framework that formulates sample logits into a multi-granularity codebook to represent logits from personalized per-sample insights to globalized per-class knowledge. The unsupervised bottom-up clustering method is leveraged to enable the global server to provide multi-granularity responses to local clients. These responses allow local training to integrate supervised learning objectives with global generalization constraints, which results in more robust representations and improved knowledge sharing in subsequent training rounds. The proposed framework’s effectiveness is validated across various benchmarks and model architectures.

arxiv情報

著者 Wai Fong Tam,Qilei Li,Ahmed M. Abdelmonie
発行日 2025-04-04 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Hierarchical Knowledge Structuring for Effective Federated Learning in Heterogeneous Environments はコメントを受け付けていません

The Central Role of the Loss Function in Reinforcement Learning

要約

本稿では、データ駆動型意思決定における損失関数の中心的な役割を説明し、コスト依存型分類(CSC)と強化学習(RL)における損失関数の影響に関する包括的なサーベイを提供する。我々は、異なる回帰損失関数が価値ベースの意思決定アルゴリズムのサンプル効率と適応性にどのような影響を与えるかを示す。複数の設定において、2値クロスエントロピー損失を用いたアルゴリズムが、最適なポリシーのコストにスケーリングする一次境界を達成し、一般的に用いられる2乗損失よりもはるかに効率的であることを証明する。さらに、最大尤度損失を用いた分布アルゴリズムが、ポリシーの分散にスケーリングされた2次境界を達成し、1次境界よりもさらにシャープであることを証明する。これは特に分布的RLの利点を証明するものである。本論文が、様々な損失関数を用いた意思決定アルゴリズムを分析するガイドとなり、読者があらゆる意思決定アルゴリズムを改善するために、より良い損失関数を探し求めるきっかけとなることを願っている。

要約(オリジナル)

This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy’s cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm.

arxiv情報

著者 Kaiwen Wang,Nathan Kallus,Wen Sun
発行日 2025-04-04 15:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | The Central Role of the Loss Function in Reinforcement Learning はコメントを受け付けていません

Data-Efficient Kernel Methods for Learning Differential Equations and Their Solution Operators: Algorithms and Error Analysis

要約

我々は、微分方程式とその解マップを学習するための新しいカーネルベースのフレームワークを紹介する。このフレームワークは、解例と各解例からの測定量というデータ要件と、学習手順という計算コストにおいて効率的である。我々のアプローチは数学的に解釈可能であり、学習された方程式の定量的なワーストケース誤差境界という形で厳密な理論的保証に裏打ちされている。数値ベンチマークにより、計算の複雑さとロバスト性が大幅に改善されたことが示される一方、精度の面では最新のアルゴリズムと比較して1~2桁の改善が達成された。

要約(オリジナル)

We introduce a novel kernel-based framework for learning differential equations and their solution maps that is efficient in data requirements, in terms of solution examples and amount of measurements from each example, and computational cost, in terms of training procedures. Our approach is mathematically interpretable and backed by rigorous theoretical guarantees in the form of quantitative worst-case error bounds for the learned equation. Numerical benchmarks demonstrate significant improvements in computational complexity and robustness while achieving one to two orders of magnitude improvements in terms of accuracy compared to state-of-the-art algorithms.

arxiv情報

著者 Yasamin Jalalian,Juan Felipe Osorio Ramirez,Alexander Hsu,Bamdad Hosseini,Houman Owhadi
発行日 2025-04-04 15:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | Data-Efficient Kernel Methods for Learning Differential Equations and Their Solution Operators: Algorithms and Error Analysis はコメントを受け付けていません

Dexterous Manipulation through Imitation Learning: A Survey

要約

器用な操作とは、ロボットハンドや多指のエンドエフェクタが、正確で協調的な指の動きと適応的な力の調節によって、物体を巧みに制御し、向きを変え、操作する能力を指し、人間の手の器用さに似た複雑なインタラクションを可能にする。近年のロボット工学と機械学習の進歩に伴い、複雑で非構造的な環境で動作するシステムに対する要求が高まっている。従来のモデルベースのアプローチでは、器用な操作の高次元性と複雑な接触ダイナミクスのために、タスクやオブジェクトのバリエーションに渡って一般化するのに苦労している。強化学習(RL)のようなモデルフリーの手法は有望ではあるが、安定性と有効性のためには、大規模な訓練、大規模な相互作用データ、慎重に設計された報酬が必要である。模倣学習(IL)は、ロボットが専門家のデモンストレーションから直接器用な操作スキルを習得することを可能にすることで、明示的なモデリングや大規模な試行錯誤の必要性を回避しつつ、きめ細かな協調や接触ダイナミクスを捉えるという代替手段を提供する。本サーベイでは、模倣学習(IL)に基づく器用な操作方法の概要、最近の進歩の詳細、およびこの分野における主要な課題を説明する。さらに、ILに基づく器用な操作を強化するための潜在的な研究の方向性を探る。本書の目的は、研究者や実務者に、急速に発展しつつあるこの分野の包括的な紹介を提供することである。

要約(オリジナル)

Dexterous manipulation, which refers to the ability of a robotic hand or multi-fingered end-effector to skillfully control, reorient, and manipulate objects through precise, coordinated finger movements and adaptive force modulation, enables complex interactions similar to human hand dexterity. With recent advances in robotics and machine learning, there is a growing demand for these systems to operate in complex and unstructured environments. Traditional model-based approaches struggle to generalize across tasks and object variations due to the high-dimensionality and complex contact dynamics of dexterous manipulation. Although model-free methods such as reinforcement learning (RL) show promise, they require extensive training, large-scale interaction data, and carefully designed rewards for stability and effectiveness. Imitation learning (IL) offers an alternative by allowing robots to acquire dexterous manipulation skills directly from expert demonstrations, capturing fine-grained coordination and contact dynamics while bypassing the need for explicit modeling and large-scale trial-and-error. This survey provides an overview of dexterous manipulation methods based on imitation learning (IL), details recent advances, and addresses key challenges in the field. Additionally, it explores potential research directions to enhance IL-driven dexterous manipulation. Our goal is to offer researchers and practitioners a comprehensive introduction to this rapidly evolving domain.

arxiv情報

著者 Shan An,Ziyu Meng,Chao Tang,Yuning Zhou,Tengyu Liu,Fangqiang Ding,Shufang Zhang,Yao Mu,Ran Song,Wei Zhang,Zeng-Guang Hou,Hong Zhang
発行日 2025-04-04 15:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Dexterous Manipulation through Imitation Learning: A Survey はコメントを受け付けていません

Lightweight Learning for Grant-Free Activity Detection in Cell-Free Massive MIMO Networks

要約

グラントフリーランダムアクセス(GF-RA)は、将来の無線ネットワーク、特に5G以降(6G)のシステムにおける大規模マシン型通信(mMTC)のための有望なアクセス技術である。GF-RAのコンテキストにおいて、本研究では、デバイスのアクティビティ検出(AD)に関する課題に取り組むために教師あり機械学習技術を採用することの効率性を調査する。GF-RAは、非直交パイロットシーケンスを採用することでスケーラビリティに対応し、直交プリアンブルリソースの不足に制約される従来のグラントベースランダムアクセス(GB-RA)技術と比較して効率的な代替手段を提供する。本論文では、CF-mMIMO(cell-free massive multiple-input multiple-output)ネットワークにおけるmMTCのGF-RAにおけるアクティビティ検出のために特別に設計された、新しい軽量データ駆動アルゴリズムフレームワークを提案する。我々は、集中型と分散型の2つの異なるフレームワーク展開戦略を提案し、どちらもネットワークインフラ全体で提案されたアプローチの実装を合理化するように調整されている。さらに、全体的な検出性能を向上させるために、クラスタリングステージによって補完される最適化されたポスト検出手法を導入する。3GPPに準拠したシミュレーションにより、提案アルゴリズムは複雑さを大幅に低減しながら、最先端のモデルベースのアクティビティ検出精度を達成することが検証されました。99%の精度を達成し、実世界での実行可能性と有効性を実証している。

要約(オリジナル)

Grant-free random access (GF-RA) is a promising access technique for massive machine-type communications (mMTC) in future wireless networks, particularly in the context of 5G and beyond (6G) systems. Within the context of GF-RA, this study investigates the efficiency of employing supervised machine learning techniques to tackle the challenges on the device activity detection (AD). GF-RA addresses scalability by employing non-orthogonal pilot sequences, which provides an efficient alternative comparing to conventional grant-based random access (GB-RA) technique that are constrained by the scarcity of orthogonal preamble resources. In this paper, we propose a novel lightweight data-driven algorithmic framework specifically designed for activity detection in GF-RA for mMTC in cell-free massive multiple-input multiple-output (CF-mMIMO) networks. We propose two distinct framework deployment strategies, centralized and decentralized, both tailored to streamline the proposed approach implementation across network infrastructures. Moreover, we introduce optimized post-detection methodologies complemented by a clustering stage to enhance overall detection performances. Our 3GPP-compliant simulations have validated that the proposed algorithm achieves state-of-the-art model-based activity detection accuracy while significantly reducing complexity. Achieving 99% accuracy, it demonstrates real-world viability and effectiveness.

arxiv情報

著者 Ali Elkeshawy,Haifa Fares,Amor Nafkha
発行日 2025-04-04 15:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP | Lightweight Learning for Grant-Free Activity Detection in Cell-Free Massive MIMO Networks はコメントを受け付けていません

AutoML Benchmark with shorter time constraints and early stopping

要約

自動機械学習(AutoML)は、データ上で機械学習(ML)モデルを自動的に構築する。表データ用の新しいAutoMLフレームワークを評価するための事実上の標準は、AutoMLベンチマーク(AMLB)である。AMLBでは、104のタスクに対して1時間と4時間の時間予算を使ってAutoMLフレームワークを評価することが提案されている。我々は、モデルを高頻度で再学習する必要がある場合などの実用的な価値と、AMLBをより利用しやすくするために、より短い時間制約をベンチマークに考慮すべきであると主張する。本研究では、ベンチマークで使用される全体的な計算量を削減するための2つの方法、すなわち、より小さな時間制約と早期停止の使用について検討する。異なる時間制約を持つ104のタスクに対して11のAutoMLフレームワークの評価を行い、AutoMLフレームワークの相対的なランキングは時間制約間でほぼ一貫しているが、早期停止を使用することでモデルの性能がより多様になることを発見した。

要約(オリジナル)

Automated Machine Learning (AutoML) automatically builds machine learning (ML) models on data. The de facto standard for evaluating new AutoML frameworks for tabular data is the AutoML Benchmark (AMLB). AMLB proposed to evaluate AutoML frameworks using 1- and 4-hour time budgets across 104 tasks. We argue that shorter time constraints should be considered for the benchmark because of their practical value, such as when models need to be retrained with high frequency, and to make AMLB more accessible. This work considers two ways in which to reduce the overall computation used in the benchmark: smaller time constraints and the use of early stopping. We conduct evaluations of 11 AutoML frameworks on 104 tasks with different time constraints and find the relative ranking of AutoML frameworks is fairly consistent across time constraints, but that using early-stopping leads to a greater variety in model performance.

arxiv情報

著者 Israel Campero Jurado,Pieter Gijsbers,Joaquin Vanschoren
発行日 2025-04-04 15:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | AutoML Benchmark with shorter time constraints and early stopping はコメントを受け付けていません

Can Learning Be Explained By Local Optimality In Robust Low-rank Matrix Recovery?

要約

m$ 個の線形の測定値から、ランク $r$ の $d_1times d_2$ 行列 $X^star$ を再構成することに焦点を当て、低ランク行列回復の局所風景を探索する。ノイズが外れ値モデルに従って分布している場合、簡単な副勾配法で非平滑$ell_1$-lossを最小化すると、多くの場合、基底真理行列$X^star$を完全に復元できる。これを考えると、このような学習動作を可能にする最適化特性は何か(もしあれば)というのが自然な疑問である。最も妥当な答えは、基底真理$X^star$が損失関数の局所最適として現れることである。本論文では、この疑問に対する強い否定的な答えを提供し、適度な仮定の下で、$X^star$に対応する真の解は局所最適として現れるのではなく、厳密な鞍点(少なくとも一方向に厳密に負の曲率を持つ臨界点)として現れることを示す。我々の発見は、全ての厳密な鞍点は望ましくないので避けるべきであるという従来の信念を覆すものである。

要約(オリジナル)

We explore the local landscape of low-rank matrix recovery, focusing on reconstructing a $d_1\times d_2$ matrix $X^\star$ with rank $r$ from $m$ linear measurements, some potentially noisy. When the noise is distributed according to an outlier model, minimizing a nonsmooth $\ell_1$-loss with a simple sub-gradient method can often perfectly recover the ground truth matrix $X^\star$. Given this, a natural question is what optimization property (if any) enables such learning behavior. The most plausible answer is that the ground truth $X^\star$ manifests as a local optimum of the loss function. In this paper, we provide a strong negative answer to this question, showing that, under moderate assumptions, the true solutions corresponding to $X^\star$ do not emerge as local optima, but rather as strict saddle points — critical points with strictly negative curvature in at least one direction. Our findings challenge the conventional belief that all strict saddle points are undesirable and should be avoided.

arxiv情報

著者 Jianhao Ma,Salar Fattahi
発行日 2025-04-04 15:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC | Can Learning Be Explained By Local Optimality In Robust Low-rank Matrix Recovery? はコメントを受け付けていません