Fine-tuning the SwissBERT Encoder Model for Embedding Sentences and Documents

要約

文や短いドキュメントの埋め込み用にトレーニングされたエンコーダー モデルは、セマンティック検索やトピック モデリングなどのタスクに役立つことが証明されています。
このペーパーでは、この目的のために特に微調整した SwissBERT エンコーダ モデルのバージョンを紹介します。
SwissBERT には、スイスの 4 つの国語 (ドイツ語、フランス語、イタリア語、ロマンシュ語) の言語アダプターが含まれており、これらの言語の多数のニュース記事で事前トレーニングされています。
これらの記事のサブセットに基づく対照学習を使用して、SentenceSwissBERT と呼ばれる微調整バージョンをトレーニングしました。
スイス特有の設定での文書検索とテキスト分類に関する多言語実験では、SentenceSwissBERT がオリジナルの SwissBERT モデルおよび同等のベースラインの精度を上回っていることが示されました。
このモデルは研究用途に公開されています。

要約(オリジナル)

Encoder models trained for the embedding of sentences or short documents have proven useful for tasks such as semantic search and topic modeling. In this paper, we present a version of the SwissBERT encoder model that we specifically fine-tuned for this purpose. SwissBERT contains language adapters for the four national languages of Switzerland — German, French, Italian, and Romansh — and has been pre-trained on a large number of news articles in those languages. Using contrastive learning based on a subset of these articles, we trained a fine-tuned version, which we call SentenceSwissBERT. Multilingual experiments on document retrieval and text classification in a Switzerland-specific setting show that SentenceSwissBERT surpasses the accuracy of the original SwissBERT model and of a comparable baseline. The model is openly available for research use.

arxiv情報

著者 Juri Grosjean,Jannis Vamvas
発行日 2024-05-13 07:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク