NextLevelBERT: Investigating Masked Language Modeling with Higher-Level Representations for Long Documents

要約

(大規模な)言語モデルはここ数年で大幅に改善されましたが、基礎となる注意メカニズムの二次スケーリングのため、書籍などで見つかった長いシーケンスを適切に処理するのに依然として苦労しています。
これに対処するために、トークンではなく、テキスト埋め込みの形式で高レベルの意味表現で動作するマスクされた言語モデルである NextLevelBERT を提案します。
NextLevelBERT を事前トレーニングして、マスクされたテキスト チャンク全体のベクトル表現を予測し、次の 3 つのタスク タイプで結果として得られるドキュメント ベクトルの有効性を評価します。1) ゼロショット ドキュメント埋め込みによる意味的テキストの類似性、2) 長いドキュメントの分類、3) 多肢選択
質問応答。
次のレベルのマスク言語モデリングは、長いドキュメントのユースケースに取り組むための効果的な手法であり、必要な詳細レベルが高すぎない限り、はるかに大規模な埋め込みモデルよりも優れたパフォーマンスを発揮できることがわかりました。
モデルとコードを利用可能にします。

要約(オリジナル)

While (large) language models have significantly improved over the last years, they still struggle to sensibly process long sequences found, e.g., in books, due to the quadratic scaling of the underlying attention mechanism. To address this, we propose NextLevelBERT, a Masked Language Model operating not on tokens, but on higher-level semantic representations in the form of text embeddings. We pretrain NextLevelBERT to predict the vector representation of entire masked text chunks and evaluate the effectiveness of the resulting document vectors on three task types: 1) Semantic Textual Similarity via zero-shot document embeddings, 2) Long document classification, 3) Multiple-choice question answering. We find that next level Masked Language Modeling is an effective technique to tackle long-document use cases and can outperform much larger embedding models as long as the required level of detail is not too high. We make model and code available.

arxiv情報

著者 Tamara Czinczoll,Christoph Hönes,Maximilian Schall,Gerard de Melo
発行日 2024-02-27 16:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク