Extracting Sentence Embeddings from Pretrained Transformer Models

要約

背景/はじめに: 事前トレーニングされたトランスフォーマー モデルは、多くの自然言語処理タスクで威力を発揮するため、入力された文またはテキストの意味を表現することが期待されます。
これらの文レベルの埋め込みは、検索拡張生成でも重要です。
しかし、一般的に使用される単純な平均やプロンプト テンプレートだけで十分にそれが明らかになるでしょうか?
方法: 複数のレイヤーと複数のトークンからの BERT の隠された表現に 1 億 1000 万のパラメーターが与えられた場合、最適な文表現を抽出するためにさまざまな方法を試しました。
私たちは、さまざまなトークンの集約と表現の後処理技術をテストしました。
また、BERT の文表現を補完するために一般的な Wikitext データセットを使用する複数の方法もテストしました。
すべてのメソッドは、8 つの意味論的テキスト類似性 (STS)、6 つの短テキスト クラスタリング、および 12 の分類タスクでテストされました。
また、ランダムなトークン表現を含む他の静的モデルでの表現形成手法も評価しました。
結果: 提案された表現抽出方法により、検討したすべてのモデルの STS およびクラスタリング タスクのパフォーマンスが向上しました。
静的トークンベースのモデル、特に STS タスクのランダムな埋め込みが非常に大幅に改善され、BERT 派生表現のパフォーマンスにほぼ達しています。
結論: 私たちの研究は、複数のタスクに対して、表現整形技術を使用した単純なベースラインが、より複雑な BERT ベースのモデルに達するか、それを上回るパフォーマンスを発揮するか、パフォーマンスに貢献できることを示しています。

要約(オリジナル)

Background/introduction: Pre-trained transformer models shine in many natural language processing tasks and therefore are expected to bear the representation of the input sentence or text meaning. These sentence-level embeddings are also important in retrieval-augmented generation. But do commonly used plain averaging or prompt templates surface it enough? Methods: Given 110M parameters BERT’s hidden representations from multiple layers and multiple tokens we tried various ways to extract optimal sentence representations. We tested various token aggregation and representation post-processing techniques. We also tested multiple ways of using a general Wikitext dataset to complement BERTs sentence representations. All methods were tested on 8 Semantic Textual Similarity (STS), 6 short text clustering, and 12 classification tasks. We also evaluated our representation-shaping techniques on other static models, including random token representations. Results: Proposed representation extraction methods improved the performance on STS and clustering tasks for all models considered. Very high improvements for static token-based models, especially random embeddings for STS tasks almost reach the performance of BERT-derived representations. Conclusions: Our work shows that for multiple tasks simple baselines with representation shaping techniques reach or even outperform more complex BERT-based models or are able to contribute to their performance.

arxiv情報

著者 Lukas Stankevičius,Mantas Lukoševičius
発行日 2024-08-15 10:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T07, 68T50, cs.CL, cs.IR, cs.LG, I.2.6, stat.ML パーマリンク