RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration

要約

複雑な産業環境での異常検出は、特にデータスパース性と進化する運用条件を特徴とするコンテキストで、独自の課題をもたらします。
このような設定での予測メンテナンス(PDM)は、ドメイン固有の知識を統合できる適応性があり、移転可能で、導入可能な方法論を要求します。
このホワイトペーパーでは、検索された生成(RAG)と統合された大規模な言語モデル(LLM)を活用する適応異常検出の新しいフレームワークであるRaad-llmを紹介します。
このアプローチは、前述のPDMの課題に対処します。
ドメイン固有の知識を効果的に利用することにより、RAAD-LLMは、特定のデータセットで微調整することなく、時系列データの異常の検出を強化します。
フレームワークの適応性メカニズムにより、通常の動作条件の理解を動的に調整できるため、検出の精度が向上します。
プラスチック製造プラントとSkoltech Anomaly Benchmark(SKAB)の実世界のアプリケーションを通じて、この方法論を検証します。
結果は、以前のモデルよりも大幅な改善が示され、実世界のデータセットで精度が70.7%から88.6%に増加します。
Semanticsで入力シリーズデータを濃縮することを許可することにより、Raad-llmは、モデルとプラント演算子の間のより協調的な意思決定を促進するマルチモーダル機能を組み込みます。
全体として、我々の調査結果は、PDMの異常検出方法論に革命をもたらすRaad-llmの能力をサポートし、潜在的にさまざまな業界で異常検出がどのように実装されるかのパラダイムシフトにつながります。

要約(オリジナル)

Anomaly detection in complex industrial environments poses unique challenges, particularly in contexts characterized by data sparsity and evolving operational conditions. Predictive maintenance (PdM) in such settings demands methodologies that are adaptive, transferable, and capable of integrating domain-specific knowledge. In this paper, we present RAAD-LLM, a novel framework for adaptive anomaly detection, leveraging large language models (LLMs) integrated with Retrieval-Augmented Generation (RAG). This approach addresses the aforementioned PdM challenges. By effectively utilizing domain-specific knowledge, RAAD-LLM enhances the detection of anomalies in time series data without requiring fine-tuning on specific datasets. The framework’s adaptability mechanism enables it to adjust its understanding of normal operating conditions dynamically, thus increasing detection accuracy. We validate this methodology through a real-world application for a plastics manufacturing plant and the Skoltech Anomaly Benchmark (SKAB). Results show significant improvements over our previous model with an accuracy increase from 70.7% to 88.6% on the real-world dataset. By allowing for the enriching of input series data with semantics, RAAD-LLM incorporates multimodal capabilities that facilitate more collaborative decision-making between the model and plant operators. Overall, our findings support RAAD-LLM’s ability to revolutionize anomaly detection methodologies in PdM, potentially leading to a paradigm shift in how anomaly detection is implemented across various industries.

arxiv情報

著者 Alicia Russell-Gilbert,Sudip Mittal,Shahram Rahimi,Maria Seale,Joseph Jabour,Thomas Arnold,Joshua Church
発行日 2025-03-11 15:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 1.6.5, cs.CE, cs.LG | RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration はコメントを受け付けていません

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding

要約

ループされた変圧器は、推論タスクのためのパラメーター効率、計算機能、および一般化の利点を提供します。
ただし、関数近似に関するそれらの表現力のある力は未定のままです。
この論文では、シーケンスからシーケンス関数の連続性の弾性率を定義することにより、ループされた変圧器の近似速度を確立します。
これにより、ループアーキテクチャに固有の制限が明らかになります。
つまり、分析により、各ループのスケーリングパラメーターの組み込みが促され、タイムステップエンコーディングが条件付けられます。
実験では、理論的な結果が検証され、ループの数を増やすとパフォーマンスが向上し、タイムステップエンコーディングを通じてさらなる利益が達成されることが示されています。

要約(オリジナル)

Looped Transformers provide advantages in parameter efficiency, computational capabilities, and generalization for reasoning tasks. However, their expressive power regarding function approximation remains underexplored. In this paper, we establish the approximation rate of Looped Transformers by defining the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts the incorporation of scaling parameters for each loop, conditioned on timestep encoding. Experiments validate the theoretical results, showing that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding.

arxiv情報

著者 Kevin Xu,Issei Sato
発行日 2025-03-11 15:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding はコメントを受け付けていません

Semiparametric conformal prediction

要約

多くのリスクに敏感なアプリケーションには、複数の潜在的に相関するターゲット変数にわたって十分に調整された予測セットが必要であり、予測アルゴリズムが相関エラーを報告する場合があります。
この作業では、ベクター値の非変性スコアの共同相関構造を占めるコンフォーマル予測セットを構築することを目指しています。
多変量分位​​とセミパラメトリック統計に関する豊富な文献から、$ \ alpha $がユーザー指定のミスベージレートです。
特に、ノンパラメトリックブドウcopulasを使用してスコアの関節累積分布関数(CDF)を柔軟に推定し、その影響関数を使用して分位分位推定の漸近効率を改善します。
つる分解により、私たちの方法は多数のターゲットに適切にスケーリングすることができます。
漸近的に正確なカバレッジを保証するだけでなく、私たちの方法は、キャリブレーションセットにランダムなラベルが欠落している人を含む、さまざまな現実世界の回帰問題の希望のカバレッジと競争効率をもたらします。

要約(オリジナル)

Many risk-sensitive applications require well-calibrated prediction sets over multiple, potentially correlated target variables, for which the prediction algorithm may report correlated errors. In this work, we aim to construct the conformal prediction set accounting for the joint correlation structure of the vector-valued non-conformity scores. Drawing from the rich literature on multivariate quantiles and semiparametric statistics, we propose an algorithm to estimate the $1-\alpha$ quantile of the scores, where $\alpha$ is the user-specified miscoverage rate. In particular, we flexibly estimate the joint cumulative distribution function (CDF) of the scores using nonparametric vine copulas and improve the asymptotic efficiency of the quantile estimate using its influence function. The vine decomposition allows our method to scale well to a large number of targets. As well as guaranteeing asymptotically exact coverage, our method yields desired coverage and competitive efficiency on a range of real-world regression problems, including those with missing-at-random labels in the calibration set.

arxiv情報

著者 Ji Won Park,Robert Tibshirani,Kyunghyun Cho
発行日 2025-03-11 15:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Semiparametric conformal prediction はコメントを受け付けていません

Integrating Semantic Communication and Human Decision-Making into an End-to-End Sensing-Decision Framework

要約

早くも1949年、ウィーバーはコミュニケーションを非常に広い意味で定義し、ある心や技術システムが別の手順に影響を与える可能性のあるすべての手順を含め、セマンティックコミュニケーションのアイデアを確立しました。
検知情報がタスクの実行を支援するために人間にワイヤレスで提供される専門家支援システムでの機械学習の最近の成功により、効果的かつ効率的なコミュニケーションを設計する必要性がますます明らかになっています。
特に、セマンティックコミュニケーションは、人間の意思決定(HDM)に関連する感知された情報の背後にある意味を伝えることを目指しています。
セマンティックコミュニケーションとHDMの相互作用に関して、エンドツーエンドのセンシング決定プロセス全体をモデル化する方法、HDMのセマンティックコミュニケーションを設計する方法、HDMに提供する情報など、多くの疑問が残ります。
これらの質問に対処するために、セマンティックコミュニケーションとHDMを、コミュニケーションと心理学を橋渡しする確率的なエンドツーエンドのセンシング決定フレームワークに統合することを提案します。
学際的な枠組みでは、HDMプロセスを通じて人間をモデル化し、セマンティックコミュニケーションからの特徴抽出が理論とシミュレーションの両方でHDMを最もよくサポートする方法を探ることができます。
この意味で、私たちの研究は、関連するセマンティック情報を最大化することとHDMモデルの認知能力を一致させることとの基本的な設計トレードオフを明らかにしています。
私たちの最初の分析は、セマンティックコミュニケーションが詳細レベルと人間の認知能力のバランスをとりながら、帯域幅、パワー、レイテンシを必要とする方法を示しています。

要約(オリジナル)

As early as 1949, Weaver defined communication in a very broad sense to include all procedures by which one mind or technical system can influence another, thus establishing the idea of semantic communication. With the recent success of machine learning in expert assistance systems where sensed information is wirelessly provided to a human to assist task execution, the need to design effective and efficient communications has become increasingly apparent. In particular, semantic communication aims to convey the meaning behind the sensed information relevant for Human Decision-Making (HDM). Regarding the interplay between semantic communication and HDM, many questions remain, such as how to model the entire end-to-end sensing-decision-making process, how to design semantic communication for the HDM and which information should be provided to the HDM. To address these questions, we propose to integrate semantic communication and HDM into one probabilistic end-to-end sensing-decision framework that bridges communications and psychology. In our interdisciplinary framework, we model the human through a HDM process, allowing us to explore how feature extraction from semantic communication can best support HDM both in theory and in simulations. In this sense, our study reveals the fundamental design trade-off between maximizing the relevant semantic information and matching the cognitive capabilities of the HDM model. Our initial analysis shows how semantic communication can balance the level of detail with human cognitive capabilities while demanding less bandwidth, power, and latency.

arxiv情報

著者 Edgar Beck,Hsuan-Yu Lin,Patrick Rückert,Yongping Bao,Bettina von Helversen,Sebastian Fehrler,Kirsten Tracht,Armin Dekorsy
発行日 2025-03-11 16:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, eess.SP | Integrating Semantic Communication and Human Decision-Making into an End-to-End Sensing-Decision Framework はコメントを受け付けていません

Hypergraph-MLP: Learning on Hypergraphs without Message Passing

要約

ハイパーグラフは、2つ以上のエンティティを含む高次の関係を持つデータのモデリングに不可欠であり、機械学習と信号処理で顕著になります。
多くのハイパーグラフニューラルネットワークは、ハイパーグラフ構造を通過するメッセージを活用してノード表現学習を強化し、ハイパーグラフノード分類などのタスクの印象的なパフォーマンスをもたらします。
ただし、これらのメッセージパスベースのモデルは、推論時間における構造的摂動に対する高レイテンシと感度など、過剰滑らかな距離など、いくつかの課題に直面しています。
これらの課題に取り組むために、明示的なメッセージの合格なしにハイパーグラフ構造に関する情報をトレーニング監督に統合する代替アプローチを提案します。
具体的には、ハイパーグラフ構造データの新しい学習フレームワークであるHypergraph-MLPを紹介します。ここでは、学習モデルは、ハイパーグラフの信号滑らかさの概念に基づく損失関数によって監督される率直な多層パーセプトロン(MLP)です。
ハイパーグラフノード分類タスクの実験は、ハイパーグラフMLPが既存のベースラインと比較して競争力のあるパフォーマンスを達成し、推論での構造的摂動に対してかなり速く、より堅牢であることを示しています。

要約(オリジナル)

Hypergraphs are vital in modelling data with higher-order relations containing more than two entities, gaining prominence in machine learning and signal processing. Many hypergraph neural networks leverage message passing over hypergraph structures to enhance node representation learning, yielding impressive performances in tasks like hypergraph node classification. However, these message-passing-based models face several challenges, including oversmoothing as well as high latency and sensitivity to structural perturbations at inference time. To tackle those challenges, we propose an alternative approach where we integrate the information about hypergraph structures into training supervision without explicit message passing, thus also removing the reliance on it at inference. Specifically, we introduce Hypergraph-MLP, a novel learning framework for hypergraph-structured data, where the learning model is a straightforward multilayer perceptron (MLP) supervised by a loss function based on a notion of signal smoothness on hypergraphs. Experiments on hypergraph node classification tasks demonstrate that Hypergraph-MLP achieves competitive performance compared to existing baselines, and is considerably faster and more robust against structural perturbations at inference.

arxiv情報

著者 Bohan Tang,Siheng Chen,Xiaowen Dong
発行日 2025-03-11 16:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Hypergraph-MLP: Learning on Hypergraphs without Message Passing はコメントを受け付けていません

Learning Hypergraphs From Signals With Dual Smoothness Prior

要約

観測された信号からハイパーグラフ構造を学習してエンティティ間の固有の高次関係をキャプチャすることを目的とするハイパーグラフ構造学習は、データセットでハイパーグラフトポロジーが容易に利用できない場合に重要になります。
この問題の中心にある2つの課題があります。1)潜在的なハイペレッジの巨大な検索空間を処理する方法と2)ノードで観察された信号とハイパーグラフ構造の間の関係を測定するための意味のある基準を定義する方法。
この論文では、最初の課題のために、理想的なハイパーグラフ構造は、信号内のペアワイズ関係をキャプチャする学習可能なグラフ構造から導き出すことができるという仮定を採用します。
さらに、観測されたノード信号とハイパーグラフ構造の間のマッピングを明らかにする、新しいデュアルスムーズさを備えたハイパーグラフ構造学習フレームワークHGSLを提案します。これにより、各ハイパーエッジは、学習可能なグラフ構造におけるノード信号の滑らかさとエッジ信号の平滑性の両方を持つサブグラフに対応します。
最後に、合成データセットと現実世界の両方のデータセットでHGSLを評価するために広範な実験を実施します。
実験は、HGSLが観察されたシグナルから意味のあるハイパーグラフトポロジーを効率的に推測できることを示しています。

要約(オリジナル)

Hypergraph structure learning, which aims to learn the hypergraph structures from the observed signals to capture the intrinsic high-order relationships among the entities, becomes crucial when a hypergraph topology is not readily available in the datasets. There are two challenges that lie at the heart of this problem: 1) how to handle the huge search space of potential hyperedges, and 2) how to define meaningful criteria to measure the relationship between the signals observed on nodes and the hypergraph structure. In this paper, for the first challenge, we adopt the assumption that the ideal hypergraph structure can be derived from a learnable graph structure that captures the pairwise relations within signals. Further, we propose a hypergraph structure learning framework HGSL with a novel dual smoothness prior that reveals a mapping between the observed node signals and the hypergraph structure, whereby each hyperedge corresponds to a subgraph with both node signal smoothness and edge signal smoothness in the learnable graph structure. Finally, we conduct extensive experiments to evaluate HGSL on both synthetic and real world datasets. Experiments show that HGSL can efficiently infer meaningful hypergraph topologies from observed signals.

arxiv情報

著者 Bohan Tang,Siheng Chen,Xiaowen Dong
発行日 2025-03-11 16:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, eess.SP, stat.ML | Learning Hypergraphs From Signals With Dual Smoothness Prior はコメントを受け付けていません

A Deterministic Sampling Method via Maximum Mean Discrepancy Flow with Adaptive Kernel

要約

最大平均の不一致(MMD)としても知られるカーネルの不一致を最小化することにより、ターゲット分布$ \ rho^*$を近似する新しい決定論的サンプリング方法を提案します。
一般的な\ emphing {エネルギー変分推論}フレームワーク(Wang et al。、2021)を使用することにより、MMDを最小化する問題を粒子の動的なODEシステムを解くことに変換します。
暗黙のオイラー数値スキームを採用して、ODEシステムを解決します。
これにより、粒子の更新の各反復に近位最小化問題が発生します。これは、L-BFGSなどの最適化アルゴリズムによって解決できます。
提案された方法はEVI-MMDと名付けられています。
ガウスカーネルの帯域幅選択の長い既存の問題を克服するために、帯域幅を動的に指定する新しい方法を提案します。
包括的な数値研究を通じて、提案された適応帯域幅がEVI-MMDを大幅に改善することを示しました。
EVI-MMDアルゴリズムを使用して、2種類のサンプリング問題を解決します。
最初のタイプでは、ターゲット分布は完全に指定された密度関数によって与えられます。
2番目のタイプは「2サンプルの問題」であり、トレーニングデータのみが利用可能です。
EVI-MMDメソッドは、トレーニングデータと同じ分布に従う新しいサンプルを生成する生成学習モデルとして使用されます。
チューニングパラメーターの推奨設定により、提案されているEVI-MMDメソッドが両方のタイプの問題についていくつかの既存の方法を上回ることを示します。

要約(オリジナル)

We propose a novel deterministic sampling method to approximate a target distribution $\rho^*$ by minimizing the kernel discrepancy, also known as the Maximum Mean Discrepancy (MMD). By employing the general \emph{energetic variational inference} framework (Wang et al., 2021), we convert the problem of minimizing MMD to solving a dynamic ODE system of the particles. We adopt the implicit Euler numerical scheme to solve the ODE systems. This leads to a proximal minimization problem in each iteration of updating the particles, which can be solved by optimization algorithms such as L-BFGS. The proposed method is named EVI-MMD. To overcome the long-existing issue of bandwidth selection of the Gaussian kernel, we propose a novel way to specify the bandwidth dynamically. Through comprehensive numerical studies, we have shown the proposed adaptive bandwidth significantly improves the EVI-MMD. We use the EVI-MMD algorithm to solve two types of sampling problems. In the first type, the target distribution is given by a fully specified density function. The second type is a ‘two-sample problem’, where only training data are available. The EVI-MMD method is used as a generative learning model to generate new samples that follow the same distribution as the training data. With the recommended settings of the tuning parameters, we show that the proposed EVI-MMD method outperforms some existing methods for both types of problems.

arxiv情報

著者 Yindong Chen,Yiwei Wang,Lulu Kang,Chun Liu
発行日 2025-03-11 16:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | A Deterministic Sampling Method via Maximum Mean Discrepancy Flow with Adaptive Kernel はコメントを受け付けていません

Sparsity-Induced Global Matrix Autoregressive Model with Auxiliary Network Data

要約

大規模な国々で経済的および財務的変数を共同でモデル化して予測することは、長い間大きな課題でした。
この問題に対処するために、2つの主要なアプローチが利用されています。外生変数(VARX)とマトリックス自己網目上(MAR)を備えたベクトル自己回帰モデルです。
Varxモデルは国内の依存関係をキャプチャしますが、国際貿易によって駆動されるグローバル要因を表すために外因性変数を扱います。
対照的に、MARモデルは同時に複数の国からの変数を考慮しますが、貿易ネットワークを無視します。
この論文では、これら2つの目的を一度に達成するMARモデルの拡張を提案します。つまり、国際依存関係と世界経済への貿易ネットワークの影響の両方を研究します。
さらに、体系的な相互予測可能性を区別するために、モデルにまばらなコンポーネントを導入します。
モデルパラメーターを推定するために、尤度推定方法とバイアス補正された交互の最小化バージョンの両方を提案します。
私たちは、モデルの特性の理論的および経験的分析を提供し、調査結果から派生した興味深い経済的洞察を提示します。

要約(オリジナル)

Jointly modeling and forecasting economic and financial variables across a large set of countries has long been a significant challenge. Two primary approaches have been utilized to address this issue: the vector autoregressive model with exogenous variables (VARX) and the matrix autoregression (MAR). The VARX model captures domestic dependencies, but treats variables exogenous to represent global factors driven by international trade. In contrast, the MAR model simultaneously considers variables from multiple countries but ignores the trade network. In this paper, we propose an extension of the MAR model that achieves these two aims at once, i.e., studying both international dependencies and the impact of the trade network on the global economy. Additionally, we introduce a sparse component to the model to differentiate between systematic and idiosyncratic cross-predictability. To estimate the model parameters, we propose both a likelihood estimation method and a bias-corrected alternating minimization version. We provide theoretical and empirical analyses of the model’s properties, alongside presenting intriguing economic insights derived from our findings.

arxiv情報

著者 Sanyou Wu,Dan Yang,Yan Xu,Long Feng
発行日 2025-03-11 16:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Sparsity-Induced Global Matrix Autoregressive Model with Auxiliary Network Data はコメントを受け付けていません

Spectral-factorized Positive-definite Curvature Learning for NN Training

要約

Adam(W)やShampooなどの多くのトレーニング方法は、肯定的な決定的な曲率マトリックスを学び、前処理前に逆根を適用します。
最近、シャンプーなどの非角質訓練方法は大きな注目を集めています。
ただし、それらは計算的に非効率的なままであり、マトリックス分解による費用のかかるマトリックスルート計算により、特定のタイプの曲率情報に限定されています。
これに対処するために、任意のマトリックス根と一般的な曲率学習の効率的な適用を可能にするために、スペクトル因子分解陽性定義の曲率推定を動的に適応させるリーマニアの最適化アプローチを提案します。
肯定的なマトリックス最適化と勾配のない最適化のための共分散適応におけるアプローチの有効性と汎用性、ならびに神経ネットトレーニングのための曲率学習の効率性を示します。

要約(オリジナル)

Many training methods, such as Adam(W) and Shampoo, learn a positive-definite curvature matrix and apply an inverse root before preconditioning. Recently, non-diagonal training methods, such as Shampoo, have gained significant attention; however, they remain computationally inefficient and are limited to specific types of curvature information due to the costly matrix root computation via matrix decomposition. To address this, we propose a Riemannian optimization approach that dynamically adapts spectral-factorized positive-definite curvature estimates, enabling the efficient application of arbitrary matrix roots and generic curvature learning. We demonstrate the efficacy and versatility of our approach in positive-definite matrix optimization and covariance adaptation for gradient-free optimization, as well as its efficiency in curvature learning for neural net training.

arxiv情報

著者 Wu Lin,Felix Dangel,Runa Eschenhagen,Juhan Bae,Richard E. Turner,Roger B. Grosse
発行日 2025-03-11 16:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Spectral-factorized Positive-definite Curvature Learning for NN Training はコメントを受け付けていません

Transformers are Provably Optimal In-context Estimators for Wireless Communications

要約

事前に訓練された変圧器は、明示的なモデルの最適化なしに限られたプロンプトのセットを効率的に利用するコンテキスト学習(ICL)を通じて新しいタスクに適応する機能を示します。
受信した観測から送信されたシンボルを推定する標準的なコミュニケーションの問題は、コンテキスト内学習問題としてモデル化できます。受信観測は送信されたシンボルの騒々しい機能であり、この関数は、統計が未知の潜在的なコンテキストに依存する未知のパラメーターで表すことができます。
コンテキスト内推定(ICE)と呼ぶこの問題は、広範囲に研究された線形回帰問題よりも著しく大きい複雑さを持っています。
氷の問題に対する最適な解決策は、基礎となるコンテキストの非線形関数です。
この論文では、このような問題のサブクラスの場合、単一層のソフトマックス注意トランス(SAT)が、上記の推定問題の最適な解を大きなプロンプトの長さの限界に計算することを証明します。
また、このような変圧器の最適な構成は、実際に対応するトレーニング損失のミニマライザーであることを証明します。
さらに、より広範なコンテキストの推定問題を効率的に解く際に、多層変圧器の習熟度を経験的に実証します。
大規模なシミュレーションを通じて、トランスを使用して氷の問題を解決することは、標準的なアプローチを大幅に上回ることを示しています。
さらに、いくつかのコンテキストの例を使用して、潜在的なコンテキストを完全に知ることで、推定器と同じパフォーマンスを達成します。
コードは\ href {https://github.com/vishnutez/in-context-estimation} {ここで}可能です。

要約(オリジナル)

Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modeled as an in-context learning problem: received observations are a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an unknown latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single-layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such a transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context. The code is available \href{https://github.com/vishnutez/in-context-estimation}{here}.

arxiv情報

著者 Vishnu Teja Kunde,Vicram Rajagopalan,Chandra Shekhara Kaushik Valmeekam,Krishna Narayanan,Srinivas Shakkottai,Dileep Kalathil,Jean-Francois Chamberland
発行日 2025-03-11 16:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Transformers are Provably Optimal In-context Estimators for Wireless Communications はコメントを受け付けていません