HQViT: Hybrid Quantum Vision Transformer for Image Classification

要約

Transformerベースのアーキテクチャは、ディープラーニングの展望に革命をもたらした。コンピュータビジョンの領域では、Vision Transformerは畳み込みニューラルネットワークと同等か、それを上回る驚くべき性能を示している。しかし、その自己注意メカニズムの2次関数的な計算複雑性は、古典的なコンピューティングに課題をもたらし、画像などの高次元入力データを用いたモデル学習を特に高価なものにしている。このような限界に対処するため、我々は、量子コンピューティングの原理を活用し、モデル性能を向上させながらモデル学習を高速化するハイブリッド量子ビジョン変換器(HQViT)を提案する。HQViTは、振幅エンコーディングによる全画像処理を導入し、位置エンコーディングを追加することなく、大域的な画像情報をよりよく保存します。最も重要なステップに量子計算を活用し、その他のコンポーネントは古典的な方法で選択的に処理することで、HQViTの量子リソースのコストを低減している。量子ビットの必要量は$O(log_2N)$に最小化され、パラメータ化された量子ゲートの数は$O(log_2d)$で済み、ノイズの多い中間量子デバイスに適している。計算集約的な注目係数行列計算を量子フレームワークにオフロードすることで、HQViTは古典的な計算負荷を$O(T^2d)$削減する。様々なコンピュータビジョンデータセットの広範な実験により、HQViTが既存のモデルを凌駕し、最大で$10.9%$(MNIST 10分類タスクにおいて)の改善を達成することが実証された。この研究は、複雑な画像分類タスクに対処するために量子コンピューティングと古典コンピューティングを組み合わせることの大きな可能性を強調している。

要約(オリジナル)

Transformer-based architectures have revolutionized the landscape of deep learning. In computer vision domain, Vision Transformer demonstrates remarkable performance on par with or even surpassing that of convolutional neural networks. However, the quadratic computational complexity of its self-attention mechanism poses challenges for classical computing, making model training with high-dimensional input data, e.g., images, particularly expensive. To address such limitations, we propose a Hybrid Quantum Vision Transformer (HQViT), that leverages the principles of quantum computing to accelerate model training while enhancing model performance. HQViT introduces whole-image processing with amplitude encoding to better preserve global image information without additional positional encoding. By leveraging quantum computation on the most critical steps and selectively handling other components in a classical way, we lower the cost of quantum resources for HQViT. The qubit requirement is minimized to $O(log_2N)$ and the number of parameterized quantum gates is only $O(log_2d)$, making it well-suited for Noisy Intermediate-Scale Quantum devices. By offloading the computationally intensive attention coefficient matrix calculation to the quantum framework, HQViT reduces the classical computational load by $O(T^2d)$. Extensive experiments across various computer vision datasets demonstrate that HQViT outperforms existing models, achieving a maximum improvement of up to $10.9\%$ (on the MNIST 10-classification task) over the state of the art. This work highlights the great potential to combine quantum and classical computing to cope with complex image classification tasks.

arxiv情報

著者 Hui Zhang,Qinglin Zhao,Mengchu Zhou,Li Feng
発行日 2025-04-03 16:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | HQViT: Hybrid Quantum Vision Transformer for Image Classification はコメントを受け付けていません

Flexible Moment-Invariant Bases from Irreducible Tensors

要約

モーメント不変量は、パターン検出、分類、機械学習などの多くの用途に必要な回転不変記述子を生成するための強力なツールである。モーメント不変量の集合は、完全で独立であり、入力の縮退に対して頑健であれば最適である。本論文では、モーメント不変量の基底を生成するための現在の技術水準が、モーメントテンソルが同一ゼロであることに対してロバストであるにもかかわらず、実世界のアプリケーションで一般的な縮退、すなわち球面関数に対して脆弱であることを示す。我々は、球面調和に基づくものとデカルトテンソル代数に基づくものという2つの一般的なモーメント不変量のアプローチを組み合わせることによって、この脆弱性を克服する方法を示す。

要約(オリジナル)

Moment invariants are a powerful tool for the generation of rotation-invariant descriptors needed for many applications in pattern detection, classification, and machine learning. A set of invariants is optimal if it is complete, independent, and robust against degeneracy in the input. In this paper, we show that the current state of the art for the generation of these bases of moment invariants, despite being robust against moment tensors being identically zero, is vulnerable to a degeneracy that is common in real-world applications, namely spherical functions. We show how to overcome this vulnerability by combining two popular moment invariant approaches: one based on spherical harmonics and one based on Cartesian tensor algebra.

arxiv情報

著者 Roxana Bujack,Emily Shinkle,Alice Allen,Tomas Suk,Nicholas Lubbers
発行日 2025-04-03 16:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Flexible Moment-Invariant Bases from Irreducible Tensors はコメントを受け付けていません

Optimal Invariant Bases for Atomistic Machine Learning

要約

機械学習モデルのための原子配置の表現は、多くの場合、原子の局所的な環境を記述するための数多くの記述子の開発につながった。しかし、これらの表現の多くは不完全であり、また機能依存である。不完全な記述子集合は、原子環境における全ての意味のある変化を表現することができない。一方、原子環境記述子の完全な構成は、しばしば高度な機能依存性に悩まされ、ある記述子は他の記述子の関数として書くことができる。このような冗長な記述子は、異なる原子環境を識別するための付加的な力を提供せず、計算負荷を増大させる。既存の原子論的表現にパターン認識の文献の技法を採用することで、他の記述子の関数である記述子を除去し、完全性を満たす可能な限り小さな集合を生成する。まず、既存の記述であるAtomistic Cluster Expansionを改良する。これにより、より効率的な記述子のサブセットが得られることを示す。第二に、スカラーニューラルネットワークに基づく不完全な構造を補強し、直交テンソル不変量の最適なセットを利用することで、各ニューロンで最大5体のパターンを認識できる新しいメッセージパッシングネットワークアーキテクチャを得る。このアーキテクチャは、低い計算コストを維持しながら、最先端のベンチマークにおいて高い精度を示している。我々の結果は、モデルの改良をもたらすだけでなく、多くのアプリケーションにおいて、表現力を最大化しながらコストを最小化する不変量ベースのクラスへの道を指し示すものである。

要約(オリジナル)

The representation of atomic configurations for machine learning models has led to the development of numerous descriptors, often to describe the local environment of atoms. However, many of these representations are incomplete and/or functionally dependent. Incomplete descriptor sets are unable to represent all meaningful changes in the atomic environment. Complete constructions of atomic environment descriptors, on the other hand, often suffer from a high degree of functional dependence, where some descriptors can be written as functions of the others. These redundant descriptors do not provide additional power to discriminate between different atomic environments and increase the computational burden. By employing techniques from the pattern recognition literature to existing atomistic representations, we remove descriptors that are functions of other descriptors to produce the smallest possible set that satisfies completeness. We apply this in two ways: first we refine an existing description, the Atomistic Cluster Expansion. We show that this yields a more efficient subset of descriptors. Second, we augment an incomplete construction based on a scalar neural network, yielding a new message-passing network architecture that can recognize up to 5-body patterns in each neuron by taking advantage of an optimal set of Cartesian tensor invariants. This architecture shows strong accuracy on state-of-the-art benchmarks while retaining low computational cost. Our results not only yield improved models, but point the way to classes of invariant bases that minimize cost while maximizing expressivity for a host of applications.

arxiv情報

著者 Alice E. A. Allen,Emily Shinkle,Roxana Bujack,Nicholas Lubbers
発行日 2025-04-03 16:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, physics.chem-ph, stat.ML | Optimal Invariant Bases for Atomistic Machine Learning はコメントを受け付けていません

MD-ProjTex: Texturing 3D Shapes with Multi-Diffusion Projection

要約

MD-ProjTexは、事前に訓練されたテキストから画像への拡散モデルを使用して、3D形状のための高速で一貫性のあるテキストガイド付きテクスチャ生成のための手法である。我々のアプローチの中核は、異なる視点間で首尾一貫したテクスチャを保証する、UV空間におけるマルチビュー一貫性メカニズムである。具体的には、MD-ProjTexは各拡散ステップで複数のビューからのノイズ予測を融合し、3D一貫性を維持するためにビューごとのノイズ除去方向を共同で更新する。最適化や逐次的なビュー合成に依存する既存の最先端手法とは対照的に、MD-ProjTexは計算効率が高く、定量的・定性的により良い結果を達成する。

要約(オリジナル)

We introduce MD-ProjTex, a method for fast and consistent text-guided texture generation for 3D shapes using pretrained text-to-image diffusion models. At the core of our approach is a multi-view consistency mechanism in UV space, which ensures coherent textures across different viewpoints. Specifically, MD-ProjTex fuses noise predictions from multiple views at each diffusion step and jointly updates the per-view denoising directions to maintain 3D consistency. In contrast to existing state-of-the-art methods that rely on optimization or sequential view synthesis, MD-ProjTex is computationally more efficient and achieves better quantitative and qualitative results.

arxiv情報

著者 Ahmet Burak Yildirim,Mustafa Utku Aydogdu,Duygu Ceylan,Aysegul Dundar
発行日 2025-04-03 16:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MD-ProjTex: Texturing 3D Shapes with Multi-Diffusion Projection はコメントを受け付けていません

CanonNet: Canonical Ordering and Curvature Learning for Point Cloud Analysis

要約

点群処理には、一貫した点順序の確立と、きめの細かい幾何学的特徴の効果的な学習という2つの基本的な課題がある。現在のアーキテクチャは、表現力を制限する複雑な演算に依存しており、詳細な表面形状を捉えるのに苦労している。CanonNetは、2つの補完的なコンポーネントから構成される軽量ニューラルネットワークである:(1)正準の点順序と方向を作成する前処理パイプライン、(2)ネットワークが正確な曲率値を持つ合成曲面から学習する幾何学的学習フレームワーク。このモジュラーアプローチにより、局所的な幾何学的特性を効果的に捉えながら、複雑な変形不変のアーキテクチャを必要としない。我々の実験では、曲率推定において最先端の性能を実証し、幾何学的記述子タスクにおいて、同等の手法よりもかなり少ないパラメータ( \textbf{100X} )で競争力のある結果を得た。CanonNetの効率性は、計算リソースが限られている実世界のアプリケーションに特に適しており、数学的前処理が点群解析のためのニューラルアーキテクチャを効果的に補完できることを示している。このプロジェクトのコードは公開されています。

要約(オリジナル)

Point cloud processing poses two fundamental challenges: establishing consistent point ordering and effectively learning fine-grained geometric features. Current architectures rely on complex operations that limit expressivity while struggling to capture detailed surface geometry. We present CanonNet, a lightweight neural network composed of two complementary components: (1) a preprocessing pipeline that creates a canonical point ordering and orientation, and (2) a geometric learning framework where networks learn from synthetic surfaces with precise curvature values. This modular approach eliminates the need for complex transformation-invariant architectures while effectively capturing local geometric properties. Our experiments demonstrate state-of-the-art performance in curvature estimation and competitive results in geometric descriptor tasks with significantly fewer parameters (\textbf{100X}) than comparable methods. CanonNet’s efficiency makes it particularly suitable for real-world applications where computational resources are limited, demonstrating that mathematical preprocessing can effectively complement neural architectures for point cloud analysis. The code for the project is publicly available \hyperlink{https://benjyfri.github.io/CanonNet/}{https://benjyfri.github.io/CanonNet/}.

arxiv情報

著者 Benjy Friedmann,Michael Werman
発行日 2025-04-03 16:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | CanonNet: Canonical Ordering and Curvature Learning for Point Cloud Analysis はコメントを受け付けていません

Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model

要約

本論文では、1枚の画像から汎用的なシーンを生成するための、運動量に基づく動画拡散のパラダイムであるScene Splatterを提案する。新規なビューを合成するためにビデオ生成モデルを用いる既存の手法は、限られたビデオ長さとシーンの一貫性のなさに苦しみ、さらに再構成する際にアーチファクトや歪みを引き起こす。この問題に対処するため、我々は、映像の詳細を強調し、シーンの一貫性を維持するために、元の特徴からノイズの多いサンプルを運動量として構築する。しかし、既知の領域と未知の領域の両方にまたがる知覚野を持つ潜在特徴量の場合、このような潜在レベルの運動量では、未知の領域における映像拡散の生成能力が制限される。そこで、我々は、未知の領域をより良く復元するために、運動量なしで直接生成された映像に、画素レベルの運動量として前述の一貫性のある映像をさらに導入する。このカスケードされた運動量により、映像拡散モデルは高忠実度で一貫性のある新しいビューを生成することができる。さらに、強化されたフレームを用いて大域的なガウス表現を微調整し、次のステップで運動量更新のための新しいフレームをレンダリングする。このようにして、映像の長さの制限を回避しながら、3Dシーンを反復的に復元することができる。広範な実験により、高忠実度で一貫性のあるシーン生成における、我々の手法の汎化能力と優れた性能が実証された。

要約(オリジナル)

In this paper, we propose Scene Splatter, a momentum-based paradigm for video diffusion to generate generic scenes from single image. Existing methods, which employ video generation models to synthesize novel views, suffer from limited video length and scene inconsistency, leading to artifacts and distortions during further reconstruction. To address this issue, we construct noisy samples from original features as momentum to enhance video details and maintain scene consistency. However, for latent features with the perception field that spans both known and unknown regions, such latent-level momentum restricts the generative ability of video diffusion in unknown regions. Therefore, we further introduce the aforementioned consistent video as a pixel-level momentum to a directly generated video without momentum for better recovery of unseen regions. Our cascaded momentum enables video diffusion models to generate both high-fidelity and consistent novel views. We further finetune the global Gaussian representations with enhanced frames and render new frames for momentum update in the next step. In this manner, we can iteratively recover a 3D scene, avoiding the limitation of video length. Extensive experiments demonstrate the generalization capability and superior performance of our method in high-fidelity and consistent scene generation.

arxiv情報

著者 Shengjun Zhang,Jinzhao Li,Xin Fei,Hao Liu,Yueqi Duan
発行日 2025-04-03 17:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model はコメントを受け付けていません

TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection

要約

我々は、正常なデータセットが欠陥領域で汚染されており、その製品クラス分布が尾を引いているが未知であるという、実際的に困難な環境における教師なし異常検出を解決することを目的とする。既存のモデルは、画素ノイズに対してロバストであれば、テールクラスのサンプルでは性能が低下し、その逆であれば性能が低下するという、テール対ノイズのトレードオフに苦しんでいる。この問題を軽減するために、我々はテールクラスとノイズサンプルを独立に扱う。この目的のために、埋め込み類似度のクラス毎の分布に関する対称的な仮定に基づいてサンプルのクラスカーディナリティを推定する、新しいクラスサイズ予測器であるTailSamplerを提案する。TailSamplerは、テールクラスのサンプルを排他的にサンプリングするために利用することができ、それらを別々に扱うことを可能にする。これらの特徴に基づき、我々はメモリベースの異常検知モデルTailedCoreを構築する。教師なしロングテールノイズ異常検出の設定でTailedCoreの有効性を広範囲に検証し、TailedCoreがほとんどの設定で最先端技術を凌駕することを示す。

要約(オリジナル)

We aim to solve unsupervised anomaly detection in a practical challenging environment where the normal dataset is both contaminated with defective regions and its product class distribution is tailed but unknown. We observe that existing models suffer from tail-versus-noise trade-off where if a model is robust against pixel noise, then its performance deteriorates on tail class samples, and vice versa. To mitigate the issue, we handle the tail class and noise samples independently. To this end, we propose TailSampler, a novel class size predictor that estimates the class cardinality of samples based on a symmetric assumption on the class-wise distribution of embedding similarities. TailSampler can be utilized to sample the tail class samples exclusively, allowing to handle them separately. Based on these facets, we build a memory-based anomaly detection model TailedCore, whose memory both well captures tail class information and is noise-robust. We extensively validate the effectiveness of TailedCore on the unsupervised long-tail noisy anomaly detection setting, and show that TailedCore outperforms the state-of-the-art in most settings.

arxiv情報

著者 Yoon Gyo Jung,Jaewoo Park,Jaeho Yoon,Kuan-Chuan Peng,Wonchul Kim,Andrew Beng Jin Teoh,Octavia Camps
発行日 2025-04-03 17:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | TailedCore: Few-Shot Sampling for Unsupervised Long-Tail Noisy Anomaly Detection はコメントを受け付けていません

Multi-Head Adaptive Graph Convolution Network for Sparse Point Cloud-Based Human Activity Recognition

要約

特に高齢者や介助が必要な人の自立した生活を支えるために、人の行動認識はますます不可欠になっている。モニタリング機能を備えた家庭用サービスロボットは、安全性を高め、必要不可欠なサポートを提供することができる。画像ベースの方法は過去10年でかなり進歩しましたが、プライバシーへの懸念や、低照度または暗い条件に対する感度の問題により、その採用は依然として制限されています。これに代わるものとして、ミリ波(mmWave)レーダーは、プライバシーを保護する点群データを生成することができる。しかし、疎でノイズの多い点群データを処理することは長年の課題である。グラフベースの手法やアテンションメカニズムは有望であるが、それらは主に「固定」カーネルに依存している。カーネルはすべての近傍領域にわたって一様に適用されるため、点群データの各局所近傍領域の特定の形状に合わせて動的にカーネルを調整できる適応的アプローチの必要性が強調される。この限界を克服するために、グラフ畳み込みフレームワークの中に適応的アプローチを導入する。単一の共有重み関数の代わりに、我々のマルチヘッド適応カーネル(MAK)モジュールは複数の動的カーネルを生成し、それぞれが局所特徴空間の異なる側面を捉える。大域的な空間コンテキストを維持しながら局所的な特徴を漸進的に洗練することで、我々の手法は、変化する局所的特徴に適応する畳み込みカーネルを可能にする。ベンチマークデータセットでの実験結果は、我々のアプローチの有効性を確認し、人間の活動認識において最先端の性能を達成した。我々のソースコードは https://github.com/Gbouna/MAK-GCN で公開されている。

要約(オリジナル)

Human activity recognition is increasingly vital for supporting independent living, particularly for the elderly and those in need of assistance. Domestic service robots with monitoring capabilities can enhance safety and provide essential support. Although image-based methods have advanced considerably in the past decade, their adoption remains limited by concerns over privacy and sensitivity to low-light or dark conditions. As an alternative, millimetre-wave (mmWave) radar can produce point cloud data which is privacy-preserving. However, processing the sparse and noisy point clouds remains a long-standing challenge. While graph-based methods and attention mechanisms show promise, they predominantly rely on ‘fixed’ kernels; kernels that are applied uniformly across all neighbourhoods, highlighting the need for adaptive approaches that can dynamically adjust their kernels to the specific geometry of each local neighbourhood in point cloud data. To overcome this limitation, we introduce an adaptive approach within the graph convolutional framework. Instead of a single shared weight function, our Multi-Head Adaptive Kernel (MAK) module generates multiple dynamic kernels, each capturing different aspects of the local feature space. By progressively refining local features while maintaining global spatial context, our method enables convolution kernels to adapt to varying local features. Experimental results on benchmark datasets confirm the effectiveness of our approach, achieving state-of-the-art performance in human activity recognition. Our source code is made publicly available at: https://github.com/Gbouna/MAK-GCN

arxiv情報

著者 Vincent Gbouna Zakka,Luis J. Manso,Zhuangzhuang Dai
発行日 2025-04-03 17:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Multi-Head Adaptive Graph Convolution Network for Sparse Point Cloud-Based Human Activity Recognition はコメントを受け付けていません

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

要約

OpenAIのGPT4oモデルにおける最近のブレークスルーは、画像生成と編集において驚くほど優れた能力を実証し、コミュニティに大きな興奮をもたらしました。本テクニカルレポートでは、GPT-4oの性能を3つの重要な次元((1)生成の質、(2)編集の熟練度、(3)世界知識に基づく意味合成)で定量的・定性的に診断する、ファーストルック評価ベンチマーク(GPT-ImgEval)を紹介します。GPT-4oは、3つのタスクすべてにおいて、画像生成制御と出力品質の両面で既存の手法を大きく上回る強力な性能を示すと同時に、卓越した知識推論能力を示す。さらに、GPT-4oの生成データに基づいて、GPT-4oの基礎となるアーキテクチャを調査するために、分類モデルに基づくアプローチを提案する。我々の実証結果は、モデルがVARのようなアーキテクチャではなく、画像デコードのための拡散ベースのヘッドと組み合わされた自己回帰(AR)で構成されていることを示唆している。また、GPT-4oの全体的なアーキテクチャに関する完全な推測も提供する。さらに、GPT-4o特有の限界と、その画像生成で一般的に観察される合成アーチファクトを特定し、可視化するための一連の解析を実施する。また、GPT-4oとGemini 2.0 Flashのマルチラウンド画像編集の比較研究を紹介し、GPT-4oの出力の安全性への影響、特に既存の画像フォレンジックモデルによる検出可能性について議論する。我々の研究が貴重な知見を提供し、将来の研究の指針となる信頼性の高いベンチマークを提供し、再現性を促進し、画像生成の分野およびそれ以外の分野での技術革新を加速できることを期待している。GPT-4oの評価に使用したコードとデータセットは、https://github.com/PicoTrex/GPT-ImgEval。

要約(オリジナル)

The recent breakthroughs in OpenAI’s GPT4o model have demonstrated surprisingly good capabilities in image generation and editing, resulting in significant excitement in the community. This technical report presents the first-look evaluation benchmark (named GPT-ImgEval), quantitatively and qualitatively diagnosing GPT-4o’s performance across three critical dimensions: (1) generation quality, (2) editing proficiency, and (3) world knowledge-informed semantic synthesis. Across all three tasks, GPT-4o demonstrates strong performance, significantly surpassing existing methods in both image generation control and output quality, while also showcasing exceptional knowledge reasoning capabilities. Furthermore, based on the GPT-4o’s generated data, we propose a classification-model-based approach to investigate the underlying architecture of GPT-4o, where our empirical results suggest the model consists of an auto-regressive (AR) combined with a diffusion-based head for image decoding, rather than the VAR-like architectures. We also provide a complete speculation on GPT-4o’s overall architecture. In addition, we conduct a series of analyses to identify and visualize GPT-4o’s specific limitations and the synthetic artifacts commonly observed in its image generation. We also present a comparative study of multi-round image editing between GPT-4o and Gemini 2.0 Flash, and discuss the safety implications of GPT-4o’s outputs, particularly their detectability by existing image forensic models. We hope that our work can offer valuable insight and provide a reliable benchmark to guide future research, foster reproducibility, and accelerate innovation in the field of image generation and beyond. The codes and datasets used for evaluating GPT-4o can be found at https://github.com/PicoTrex/GPT-ImgEval.

arxiv情報

著者 Zhiyuan Yan,Junyan Ye,Weijia Li,Zilong Huang,Shenghai Yuan,Xiangyang He,Kaiqing Lin,Jun He,Conghui He,Li Yuan
発行日 2025-04-03 17:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation はコメントを受け付けていません

Spline-based Transformers

要約

我々は、スプラインベースのトランスフォーマーを紹介する。スプラインベースのトランスフォーマーは、位置エンコーディングを不要にする新しいクラスのトランスフォーマーモデルである。コンピュータアニメーションにおけるスプラインを用いたワークフローに触発され、我々のスプラインベースのトランスフォーマーは、要素の入力シーケンスを、潜在空間における滑らかな軌跡として埋め込む。位置エンコーディングの欠点であるシーケンスの長さの外挿を克服し、スプラインベースのトランスフォーマーは、新しい潜在的な軌道とシーケンスを作成するために潜在的な制御点を直接操作することによって、ユーザーがトランスフォーマーの潜在的な空間と対話する新しい方法を提供する。我々は、合成された2次元データから、画像、3次元形状、アニメーションなどの大規模な実世界データセットまで、様々なデータセットにおいて、従来の位置エンコーディングと比較して、我々のアプローチの優れた性能を実証する。

要約(オリジナル)

We introduce Spline-based Transformers, a novel class of Transformer models that eliminate the need for positional encoding. Inspired by workflows using splines in computer animation, our Spline-based Transformers embed an input sequence of elements as a smooth trajectory in latent space. Overcoming drawbacks of positional encoding such as sequence length extrapolation, Spline-based Transformers also provide a novel way for users to interact with transformer latent spaces by directly manipulating the latent control points to create new latent trajectories and sequences. We demonstrate the superior performance of our approach in comparison to conventional positional encoding on a variety of datasets, ranging from synthetic 2D to large-scale real-world datasets of images, 3D shapes, and animations.

arxiv情報

著者 Prashanth Chandran,Agon Serifi,Markus Gross,Moritz Bächer
発行日 2025-04-03 17:42:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Spline-based Transformers はコメントを受け付けていません