Learning High-Frequency Functions Made Easy with Sinusoidal Positional Encoding

要約

フーリエ特徴ベースの位置エンコーディング (PE) は、3D ビュー合成やニューラル タンジェント カーネルを使用した時系列回帰など、低次元入力から高周波特徴を学習する機械学習タスクで一般的に使用されます。
既存の PE は、その有効性にもかかわらず、重要なハイパーパラメータ、特にフーリエ特性をそれぞれの固有のタスクに合わせて手動で経験的に調整する必要があります。
さらに、PE は、特にデータが限られたタスクにおいて、高頻度の関数を効率的に学習するという課題に直面しています。
この論文では、真の基礎となる関数と密接に連携した適応周波数特徴を効率的に学習するように設計された正弦波 PE (SPE) を紹介します。
私たちの実験では、SPE がハイパーパラメータ調整なしで、3D ビュー合成、音声合成、1D 回帰などのさまざまなタスクにわたって忠実度の向上とトレーニングの高速化を一貫して達成できることを示しています。
SPE は、既存の PE を直接置き換えるものとして実装されます。
そのプラグ アンド プレイの性質により、多くのタスクが SPE を簡単に採用し、その恩恵を受けることができます。

要約(オリジナル)

Fourier features based positional encoding (PE) is commonly used in machine learning tasks that involve learning high-frequency features from low-dimensional inputs, such as 3D view synthesis and time series regression with neural tangent kernels. Despite their effectiveness, existing PEs require manual, empirical adjustment of crucial hyperparameters, specifically the Fourier features, tailored to each unique task. Further, PEs face challenges in efficiently learning high-frequency functions, particularly in tasks with limited data. In this paper, we introduce sinusoidal PE (SPE), designed to efficiently learn adaptive frequency features closely aligned with the true underlying function. Our experiments demonstrate that SPE, without hyperparameter tuning, consistently achieves enhanced fidelity and faster training across various tasks, including 3D view synthesis, Text-to-Speech generation, and 1D regression. SPE is implemented as a direct replacement for existing PEs. Its plug-and-play nature lets numerous tasks easily adopt and benefit from SPE.

arxiv情報

著者 Chuanhao Sun,Zhihang Yuan,Kai Xu,Luo Mai,Siddharth N,Shuo Chen,Mahesh K. Marina
発行日 2024-07-12 15:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク