Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers

要約

自然言語処理では主流であるが、変換器ベースのモデルは、長シーケンス処理の課題に対して依然として挑戦的である。なぜなら、変換器における自己注意操作の計算コストは、入力シーケンス長に対して二次関数的に膨れ上がるからである。長シーケンス処理の複雑さを緩和するために、我々は、計算コストとメモリコストが入力シーケンス長に対して線形に増加したまま、既製の事前訓練された変換器がはるかに長いシーケンスを処理できるようにする簡単なフレームワークを提案する。より具体的には、我々の手法は、各長鎖入力をチャンクのバッチに分割し、符号化ステップでチャンク間の情報を整列し、最後にエンコーダから最も代表的な隠れ状態を選択して復号化処理を行う。チャンク間の意味情報を抽出するために、各符号化変換ブロックにおいてチャンク間の開始トークンと終了トークンの埋め込みを揃える。効果的な隠れ選択ポリシーを学習するために、強化学習に着想を得た二重更新スキームを設計する。このスキームでは、トランスフォーマのデコーダを環境とみなし、下流のパフォーマンスメトリクスを報酬とみなして、隠れ選択アクションを評価する。実世界の長文要約と読解タスクにおける我々の実証結果は、先行する長文処理ベースラインと比較して効果的な改善を示している。

要約(オリジナル)

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.

arxiv情報

著者 Jiawen Xie,Pengyu Cheng,Xiao Liang,Yong Dai,Nan Du
発行日 2024-07-05 15:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク