LieRE: Generalizing Rotary Position Encodings

要約

大規模な言語モデルに対するロータリー ポジション エンベディング (RoPE) は広く採用されるようになりましたが、他のモダリティへの適用は遅れています。
ここでは、RoPE を超えて n 次元入力をサポートするリー群相対位置エンコーディング (LieRE) を紹介します。
2D および 3D 画像分類タスクにおける LieRE のパフォーマンスを評価し、LieRE がパフォーマンス (2D で最大 9.7%、3D で最大 25.5%)、トレーニング効率 (3.5 倍の削減)、データ効率の顕著な相対的な向上につながることを観察しました。
(30%) DeiT III、RoPE-Mixed、Vision-Llama のベースラインと比較して。
https://github.com/Stanford-AIMI/LieRE

要約(オリジナル)

While Rotary Position Embeddings (RoPE) for large language models have become widely adopted, their application for other modalities has been slower. Here, we introduce Lie group Relative position Encodings (LieRE) that goes beyond RoPE in supporting n-dimensional inputs. We evaluate the performance of LieRE on 2D and 3D image classification tasks and observe that LieRE leads to marked relative improvements in performance (up to 9.7% for 2D and up to 25.5% for 3D), training efficiency (3.5x reduction), data efficiency (30%) compared to the baselines of DeiT III, RoPE-Mixed and Vision-Llama. https://github.com/Stanford-AIMI/LieRE

arxiv情報

著者 Sophie Ostmeier,Brian Axelrod,Michael E. Moseley,Akshay Chaudhari,Curtis Langlotz
発行日 2024-10-17 16:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク