Information Theory of Meaningful Communication

要約

シャノンの独創的な論文では、印刷された英語のエントロピーは定常的な確率過程として扱われ、1 文字あたりおよそ 1 ビットであると推定されました。
しかし、コミュニケーションの手段として考えると、言語は印刷された形式とは大きく異なります。(i) 情報の単位は文字や単語ではなく、文節、つまり最も短い意味のある品詞です。
(ii) 送信されるのは主に、言われたり書かれたりしていることの意味ですが、意味を伝えるために使用された正確な表現は通常無視されます。
この研究では、最近開発された大規模な言語モデルを活用して、意味のある物語で伝達される情報を文節ごとの意味のビットの観点から定量化できることを示します。

要約(オリジナル)

In Shannon’s seminal paper, entropy of printed English, treated as a stationary stochastic process, was estimated to be roughly 1 bit per character. However, considered as a means of communication, language differs considerably from its printed form: (i) the units of information are not characters or even words but clauses, i.e. shortest meaningful parts of speech; and (ii) what is transmitted is principally the meaning of what is being said or written, while the precise phrasing that was used to communicate the meaning is typically ignored. In this study, we show that one can leverage recently developed large language models to quantify information communicated in meaningful narratives in terms of bits of meaning per clause.

arxiv情報

著者 Doron Sivan,Misha Tsodyks
発行日 2024-11-19 18:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク