Static Fuzzy Bag-of-Words: a lightweight sentence embedding algorithm



– 文埋め込み技術の導入により、自然言語処理分野が大きく進展してきた。
– これまでの多くの解決策は、単語レベルのエンコードのために提案されてきたが、最近ではより高い集約レベル、たとえば文レベルや文書レベルで情報を扱うための新しいメカニズムが登場している。
– 本研究では、特に文埋め込みの問題に焦点を当て、Static Fuzzy Bag-of-Wordモデルを提供する。
– 本モデルは、Fuzzy Bag-of-Wordsアプローチの改良版であり、予め定義された次元で文埋め込みを提供する。
– SFBoWは、低い計算リソースを必要としながら、意味的テキスト類似性のベンチマークで競争力のある性能を提供する。


The introduction of embedding techniques has pushed forward significantly the Natural Language Processing field. Many of the proposed solutions have been presented for word-level encoding; anyhow, in the last years, new mechanism to treat information at an higher level of aggregation, like at sentence- and document-level, have emerged. With this work we address specifically the sentence embeddings problem, presenting the Static Fuzzy Bag-of-Word model. Our model is a refinement of the Fuzzy Bag-of-Words approach, providing sentence embeddings with a predefined dimension. SFBoW provides competitive performances in Semantic Textual Similarity benchmarks, while requiring low computational resources.


著者 Matteo Muffo,Roberto Tedesco,Licia Sbattella,Vincenzo Scotti
発行日 2023-04-06 14:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, stat.ML パーマリンク