Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers

要約

自然言語処理ではトランスフォーマーベースのモデルが主流ですが、トランスフォーマーにおけるセルフアテンション演算の計算コストが入力シーケンスの長さに応じて二次関数的に増大するため、トランスフォーマーベースのモデルは依然として長いシーケンスの処理という課題に直面しています。
長いシーケンス処理の複雑さを軽減するために、計算とメモリのコストが入力シーケンスの長さに応じて線形に増加し続ける一方で、既製の事前トレーニング済みトランスフォーマーがはるかに長いシーケンスを処理できるようにするシンプルなフレームワークを提案します。
より具体的には、私たちの方法では、長いシーケンスの各入力をチャンクのバッチに分割し、エンコードステップ中にチャンク間の情報を調整し、最後にデコードプロセスのためにエンコーダーから最も代表的な隠れ状態を選択します。
チャンク間のセマンティック情報を抽出するには、各エンコーディング トランスフォーマー ブロック内のチャンク間で開始トークンと終了トークンの埋め込みを調整します。
効果的な隠れ選択ポリシーを学習するために、強化学習に触発された二重更新スキームを設計します。このスキームは、変換器のデコーダーを環境と見なし、下流のパフォーマンスメトリクスを隠れ選択アクションを評価するための報酬と見なします。
実際の長いテキストの要約と読解タスクに関する実証結果は、以前の長いシーケンスの処理ベースラインと比較して効果的な改善を示しています。

要約(オリジナル)

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.

arxiv情報

著者 Jiawen Xie,Pengyu Cheng,Xiao Liang,Yong Dai,Nan Du
発行日 2023-08-25 05:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク