Learning the RoPEs: Better 2D and 3D Position Encodings with STRING

要約

STRINGを紹介する:Separable Translation Invariant Position Encodings)を紹介する。STRINGは、最近提案され、大規模言語モデルで広く使われているアルゴリズムであるRotary Position Encodingsを、統一的な理論的枠組みによって拡張したものである。重要なことは、STRINGは、計算量を抑えつつ、任意の次元のトークン座標を含む厳密な翻訳不変性を提供することである。これらの特性は、効率的な3次元トークン表現が鍵となるロボット工学において特に重要である。我々は、STRINGをRGB(-D)入力(カラー+オプションの深度)を持つビジョン変換器に統合し、例えば、オープン語彙の物体検出やロボット制御において、大幅な利得を示す。我々は実験を厳密な数学的解析で補完し、我々の手法の普遍性を証明する。

要約(オリジナル)

We introduce STRING: Separable Translationally Invariant Position Encodings. STRING extends Rotary Position Encodings, a recently proposed and widely used algorithm in large language models, via a unifying theoretical framework. Importantly, STRING still provides exact translation invariance, including token coordinates of arbitrary dimensionality, whilst maintaining a low computational footprint. These properties are especially important in robotics, where efficient 3D token representation is key. We integrate STRING into Vision Transformers with RGB(-D) inputs (color plus optional depth), showing substantial gains, e.g. in open-vocabulary object detection and for robotics controllers. We complement our experiments with a rigorous mathematical analysis, proving the universality of our methods.

arxiv情報

著者 Connor Schenck,Isaac Reid,Mithun George Jacob,Alex Bewley,Joshua Ainslie,David Rendleman,Deepali Jain,Mohit Sharma,Avinava Dubey,Ayzaan Wahid,Sumeet Singh,Rene Wagner,Tianli Ding,Chuyuan Fu,Arunkumar Byravan,Jake Varley,Alexey Gritsenko,Matthias Minderer,Dmitry Kalashnikov,Jonathan Tompson,Vikas Sindhwani,Krzysztof Choromanski
発行日 2025-02-04 18:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, stat.ML パーマリンク