Text vectorization via transformer-based language models and n-gram perplexities

要約

テキストの確率 (したがって困惑度) は個々のトークンの確率の積に基づいて計算されるため、1 つのありそうもないトークンが、それ以外の可能性が非常に高い入力の確率を大幅に低下させる (つまり、困惑度を増加させる) ことが起こる可能性があります。
単純なタイプミスを表している可能性があります。
また、パープレキシティが入力全体を参照するスカラー値であることを考えると、その中の確率分布に関する情報は計算で失われます (1 つの可能性の低いトークンを含む比較的良好なテキストと、各トークンが同じ可能性を持つ別のテキスト)
同じ複雑さの値を持ちます)、特に長いテキストの場合にそうです。
スカラー パープレキシティの代替として、この研究では、入力内の n グラム パープレキシティに基づいてベクトル値を計算するために使用される単純なアルゴリズムを提案します。
このような表現では、前述の側面が考慮され、一意の値の代わりに、各テキスト トークンの相対的な複雑さが計算され、これらの値が入力を表す単一のベクトルに結合されます。

要約(オリジナル)

As the probability (and thus perplexity) of a text is calculated based on the product of the probabilities of individual tokens, it may happen that one unlikely token significantly reduces the probability (i.e., increase the perplexity) of some otherwise highly probable input, while potentially representing a simple typographical error. Also, given that perplexity is a scalar value that refers to the entire input, information about the probability distribution within it is lost in the calculation (a relatively good text that has one unlikely token and another text in which each token is equally likely they can have the same perplexity value), especially for longer texts. As an alternative to scalar perplexity this research proposes a simple algorithm used to calculate vector values based on n-gram perplexities within the input. Such representations consider the previously mentioned aspects, and instead of a unique value, the relative perplexity of each text token is calculated, and these values are combined into a single vector representing the input.

arxiv情報

著者 Mihailo Škorić
発行日 2023-07-18 13:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL パーマリンク