Transformers are Provably Optimal In-context Estimators for Wireless Communications

要約

事前に訓練された変圧器は、明示的なモデルの最適化なしに限られたプロンプトのセットを効率的に利用するコンテキスト学習(ICL)を通じて新しいタスクに適応する機能を示します。
受信した観測から送信されたシンボルを推定する標準的なコミュニケーションの問題は、コンテキスト内学習問題としてモデル化できます。受信観測は送信されたシンボルの騒々しい機能であり、この関数は、統計が未知の潜在的なコンテキストに依存する未知のパラメーターで表すことができます。
コンテキスト内推定(ICE)と呼ぶこの問題は、広範囲に研究された線形回帰問題よりも著しく大きい複雑さを持っています。
氷の問題に対する最適な解決策は、基礎となるコンテキストの非線形関数です。
この論文では、このような問題のサブクラスの場合、単一層のソフトマックス注意トランス(SAT)が、上記の推定問題の最適な解を大きなプロンプトの長さの限界に計算することを証明します。
また、このような変圧器の最適な構成は、実際に対応するトレーニング損失のミニマライザーであることを証明します。
さらに、より広範なコンテキストの推定問題を効率的に解く際に、多層変圧器の習熟度を経験的に実証します。
大規模なシミュレーションを通じて、トランスを使用して氷の問題を解決することは、標準的なアプローチを大幅に上回ることを示しています。
さらに、いくつかのコンテキストの例を使用して、潜在的なコンテキストを完全に知ることで、推定器と同じパフォーマンスを達成します。
コードは\ href {https://github.com/vishnutez/in-context-estimation} {ここで}可能です。

要約(オリジナル)

Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modeled as an in-context learning problem: received observations are a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an unknown latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single-layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such a transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context. The code is available \href{https://github.com/vishnutez/in-context-estimation}{here}.

arxiv情報

著者 Vishnu Teja Kunde,Vicram Rajagopalan,Chandra Shekhara Kaushik Valmeekam,Krishna Narayanan,Srinivas Shakkottai,Dileep Kalathil,Jean-Francois Chamberland
発行日 2025-03-11 16:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク