Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT

要約

トランスフォーマーベースのモデル、特に BERT は、さまざまな NLP タスクの研究を推進してきました。
ただし、これらのモデルは、最大トークン制限が 512 トークンに制限されています。
したがって、長い入力を伴う実際の設定にそれを適用するのは簡単ではありません。
この限界を克服するためにさまざまな複雑な方法が主張されていますが、最近の研究では、さまざまな分類タスクにわたるこれらのモデルの有効性が疑問視されています。
慎重に厳選された長いデータセットに基づいて評価されたこれらの複雑なアーキテクチャは、単純なベースラインと同等か、それよりも劣ったパフォーマンスを発揮します。
この研究では、任意の長さのテキストに対して推論を実行するために事前トレーニング済みモデルを微調整できる、ChunkBERT と呼ばれるバニラ BERT アーキテクチャの比較的単純な拡張機能を提案します。
提案された方法は、チャンキング トークン表現と CNN レイヤーに基づいており、事前トレーニングされたあらゆる BERT と互換性があります。
私たちは、さまざまなタスク (バイナリ分類、マルチクラス分類、マルチラベル分類など) にわたって長文分類モデルを比較するためのベンチマークのみで chunkBERT を評価します。
ChunkBERT メソッドを使用して微調整された BERT モデルは、元のメモリ フットプリントの一部 (6.25%) のみを利用しながら、ベンチマークの長いサンプルにわたって一貫してパフォーマンスを発揮します。
これらの発見は、事前トレーニングされた BERT モデルへの簡単な変更を通じて効率的な微調整と推論を達成できることを示唆しています。

要約(オリジナル)

Transformer-based models, specifically BERT, have propelled research in various NLP tasks. However, these models are limited to a maximum token limit of 512 tokens. Consequently, this makes it non-trivial to apply it in a practical setting with long input. Various complex methods have claimed to overcome this limit, but recent research questions the efficacy of these models across different classification tasks. These complex architectures evaluated on carefully curated long datasets perform at par or worse than simple baselines. In this work, we propose a relatively simple extension to vanilla BERT architecture called ChunkBERT that allows finetuning of any pretrained models to perform inference on arbitrarily long text. The proposed method is based on chunking token representations and CNN layers, making it compatible with any pre-trained BERT. We evaluate chunkBERT exclusively on a benchmark for comparing long-text classification models across a variety of tasks (including binary classification, multi-class classification, and multi-label classification). A BERT model finetuned using the ChunkBERT method performs consistently across long samples in the benchmark while utilizing only a fraction (6.25\%) of the original memory footprint. These findings suggest that efficient finetuning and inference can be achieved through simple modifications to pre-trained BERT models.

arxiv情報

著者 Aman Jaiswal,Evangelos Milios
発行日 2023-10-31 15:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク