Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation

要約

この研究では、言語シーケンスの固有のセグメンテーションを活用し、Bilevel Positional Encoding (BiPE) と呼ばれる新しい位置エンコーディング方法を設計します。
BiPE は、位置ごとにセグメント内エンコーディングとセグメント間エンコーディングをブレンドします。
セグメント内エンコーディングはセグメント内の位置を識別し、モデルが絶対位置エンコーディングを介してセグメント内のセマンティック情報をキャプチャするのに役立ちます。
セグメント間エンコーディングは、セグメント インデックスを指定し、セグメント間の関係をモデル化し、相対位置エンコーディングによる外挿機能を向上させることを目的としています。
理論分析によれば、この位置情報のもつれを解くことで学習がより効果的になることが示されています。
実証結果は、当社の BiPE が、多様なテキスト モダリティにおける幅広いタスクにわたって優れた長さの外挿機能を備えていることも示しています。

要約(オリジナル)

In this work, we leverage the intrinsic segmentation of language sequences and design a new positional encoding method called Bilevel Positional Encoding (BiPE). For each position, our BiPE blends an intra-segment encoding and an inter-segment encoding. The intra-segment encoding identifies the locations within a segment and helps the model capture the semantic information therein via absolute positional encoding. The inter-segment encoding specifies the segment index, models the relationships between segments, and aims to improve extrapolation capabilities via relative positional encoding. Theoretical analysis shows this disentanglement of positional information makes learning more effective. The empirical results also show that our BiPE has superior length extrapolation capabilities across a wide range of tasks in diverse text modalities.

arxiv情報

著者 Zhenyu He,Guhao Feng,Shengjie Luo,Kai Yang,Di He,Jingjing Xu,Zhi Zhang,Hongxia Yang,Liwei Wang
発行日 2024-01-29 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク