SwissBERT: The Multilingual Language Model for Switzerland

要約

SwissBERT は、スイス関連のテキストを処理するために特別に作成されたマスクされた言語モデルです。
SwissBERT は、スイスの国語 (ドイツ語、フランス語、イタリア語、ロマンシュ語) で書かれたニュース記事に適合させた事前トレーニング済みのモデルです。
スイスに関連する自然言語理解タスクに関して SwissBERT を評価したところ、特に現代のニュースやロマンシュ グリシュンを処理する場合に、これらのタスクに関して以前のモデルよりも優れたパフォーマンスを発揮する傾向があることがわかりました。
SwissBERT は言語アダプターを使用するため、将来の作業ではスイスドイツ語の方言にも拡張される可能性があります。
モデルとオープンソース コードは、https://github.com/ZurichNLP/swissbert で公開されています。

要約(オリジナル)

We present SwissBERT, a masked language model created specifically for processing Switzerland-related text. SwissBERT is a pre-trained model that we adapted to news articles written in the national languages of Switzerland — German, French, Italian, and Romansh. We evaluate SwissBERT on natural language understanding tasks related to Switzerland and find that it tends to outperform previous models on these tasks, especially when processing contemporary news and/or Romansh Grischun. Since SwissBERT uses language adapters, it may be extended to Swiss German dialects in future work. The model and our open-source code are publicly released at https://github.com/ZurichNLP/swissbert.

arxiv情報

著者 Jannis Vamvas,Johannes Graën,Rico Sennrich
発行日 2023-06-12 08:49:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク