On the Robustness of Text Vectorizers

要約

機械学習における基本的な問題は、入力の変化に対するモデルの堅牢性です。
自然言語処理では、通常、モデルには最初の埋め込み層が含まれており、一連のトークンをベクトル表現に変換します。
連続入力の変化に対するロバスト性はよく理解されていますが、たとえば入力文内の単語を別の単語に置き換えるなど、離散的な変化を考慮する場合、状況はそれほど明確ではありません。
私たちの研究は、連結、TF-IDF、段落ベクトル (別名 doc2vec) などの一般的な埋め込みスキームが、ハミング距離に関して古いまたはリプシッツの意味で堅牢性を示すことを正式に証明しています。
これらのスキームに定量的な限界を与え、関係する定数が文書の長さによってどのように影響を受けるかを示します。
これらの発見は、一連の数値例を通じて例示されます。

要約(オリジナル)

A fundamental issue in machine learning is the robustness of the model with respect to changes in the input. In natural language processing, models typically contain a first embedding layer, transforming a sequence of tokens into vector representations. While the robustness with respect to changes of continuous inputs is well-understood, the situation is less clear when considering discrete changes, for instance replacing a word by another in an input sentence. Our work formally proves that popular embedding schemes, such as concatenation, TF-IDF, and Paragraph Vector (a.k.a. doc2vec), exhibit robustness in the H\’older or Lipschitz sense with respect to the Hamming distance. We provide quantitative bounds for these schemes and demonstrate how the constants involved are affected by the length of the document. These findings are exemplified through a series of numerical examples.

arxiv情報

著者 Rémi Catellier,Samuel Vaiter,Damien Garreau
発行日 2023-06-12 12:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク