要約
STRINGを紹介する:Separable Translation Invariant Position Encodings)を紹介する。STRINGは、最近提案され、大規模言語モデルで広く使われているアルゴリズムであるRotary Position Encodingsを、統一的な理論的枠組みによって拡張したものである。重要なことは、STRINGは、計算量を抑えつつ、任意の次元のトークン座標を含む厳密な翻訳不変性を提供することである。これらの特性は、効率的な3次元トークン表現が鍵となるロボット工学において特に重要である。我々は、STRINGをRGB(-D)入力(カラー+オプションの深度)を持つビジョン変換器に統合し、例えば、オープン語彙の物体検出やロボット制御において、大幅な利得を示す。我々は実験を厳密な数学的解析で補完し、我々の手法の普遍性を証明する。
要約(オリジナル)
We introduce STRING: Separable Translationally Invariant Position Encodings. STRING extends Rotary Position Encodings, a recently proposed and widely used algorithm in large language models, via a unifying theoretical framework. Importantly, STRING still provides exact translation invariance, including token coordinates of arbitrary dimensionality, whilst maintaining a low computational footprint. These properties are especially important in robotics, where efficient 3D token representation is key. We integrate STRING into Vision Transformers with RGB(-D) inputs (color plus optional depth), showing substantial gains, e.g. in open-vocabulary object detection and for robotics controllers. We complement our experiments with a rigorous mathematical analysis, proving the universality of our methods.
arxiv情報
著者 | Connor Schenck,Isaac Reid,Mithun George Jacob,Alex Bewley,Joshua Ainslie,David Rendleman,Deepali Jain,Mohit Sharma,Avinava Dubey,Ayzaan Wahid,Sumeet Singh,Rene Wagner,Tianli Ding,Chuyuan Fu,Arunkumar Byravan,Jake Varley,Alexey Gritsenko,Matthias Minderer,Dmitry Kalashnikov,Jonathan Tompson,Vikas Sindhwani,Krzysztof Choromanski |
発行日 | 2025-02-04 18:37:17+00:00 |
arxivサイト | arxiv_id(pdf) |