A Measure-Theoretic Characterization of Tight Language Models

要約

自然言語処理の中心的なタスクである言語モデリングには、文字列全体の確率分布の推定が含まれます。
ほとんどの場合、推定された分布は、すべての有限文字列にわたって合計が 1 になります。
ただし、病的な場合によっては、確率質量が無限シーケンスのセットに「漏洩」する可能性があります。
漏れの概念をより正確に特徴付けるために、この論文では言語モデリングの測度理論的処理を提供します。
私たちは、多くの人気のある言語モデル ファミリが実際には緊密であり、この意味でリークしないことを証明します。
また、以前の研究で提案された気密性の特徴付けを一般化します。

要約(オリジナル)

Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can “leak” onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.

arxiv情報

著者 Li Du,Lucas Torroba Hennigen,Tiago Pimentel,Clara Meister,Jason Eisner,Ryan Cotterell
発行日 2023-08-21 18:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL パーマリンク