要約
我々は、スプラインベースのトランスフォーマーを紹介する。スプラインベースのトランスフォーマーは、位置エンコーディングを不要にする新しいクラスのトランスフォーマーモデルである。コンピュータアニメーションにおけるスプラインを用いたワークフローに触発され、我々のスプラインベースのトランスフォーマーは、要素の入力シーケンスを、潜在空間における滑らかな軌跡として埋め込む。位置エンコーディングの欠点であるシーケンスの長さの外挿を克服し、スプラインベースのトランスフォーマーは、新しい潜在的な軌道とシーケンスを作成するために潜在的な制御点を直接操作することによって、ユーザーがトランスフォーマーの潜在的な空間と対話する新しい方法を提供する。我々は、合成された2次元データから、画像、3次元形状、アニメーションなどの大規模な実世界データセットまで、様々なデータセットにおいて、従来の位置エンコーディングと比較して、我々のアプローチの優れた性能を実証する。
要約(オリジナル)
We introduce Spline-based Transformers, a novel class of Transformer models that eliminate the need for positional encoding. Inspired by workflows using splines in computer animation, our Spline-based Transformers embed an input sequence of elements as a smooth trajectory in latent space. Overcoming drawbacks of positional encoding such as sequence length extrapolation, Spline-based Transformers also provide a novel way for users to interact with transformer latent spaces by directly manipulating the latent control points to create new latent trajectories and sequences. We demonstrate the superior performance of our approach in comparison to conventional positional encoding on a variety of datasets, ranging from synthetic 2D to large-scale real-world datasets of images, 3D shapes, and animations.
arxiv情報
| 著者 | Prashanth Chandran,Agon Serifi,Markus Gross,Moritz Bächer |
| 発行日 | 2025-04-03 17:42:07+00:00 |
| arxivサイト | arxiv_id(pdf) |