Content Reduction, Surprisal and Information Density Estimation for Long Documents

要約

言語の情報内容を研究するために、多くの計算言語学的手法が提案されています。
私たちは 2 つの興味深い研究課題を検討します。1) 情報は長い文書にどのように分散されているのか、2) トークンの選択やテキストの要約などのコンテンツの削減は、長い文書の情報密度にどのような影響を与えるのか。
長い文書の情報密度を推定するための 4 つの基準 (意外性、エントロピー、均一な情報密度、語彙密度を含む) を示します。
これらの基準のうち、最初の 3 つは情報理論の尺度を採用しています。
我々は、臨床ノートに対する注意に基づく単語選択法と、複数領域の文書に対する機械要約の学習を提案します。
私たちの調査結果は、さまざまな分野における長いテキストの情報密度の体系的な違いを明らかにしました。
長い臨床ノートからの自動医療コーディングに関する経験的結果は、注意に基づく単語選択法の有効性を示しています。

要約(オリジナル)

Many computational linguistic methods have been proposed to study the information content of languages. We consider two interesting research questions: 1) how is information distributed over long documents, and 2) how does content reduction, such as token selection and text summarization, affect the information density in long documents. We present four criteria for information density estimation for long documents, including surprisal, entropy, uniform information density, and lexical density. Among those criteria, the first three adopt the measures from information theory. We propose an attention-based word selection method for clinical notes and study machine summarization for multiple-domain documents. Our findings reveal the systematic difference in information density of long text in various domains. Empirical results on automated medical coding from long clinical notes show the effectiveness of the attention-based word selection method.

arxiv情報

著者 Shaoxiong Ji,Wei Sun,Pekka Marttinen
発行日 2023-09-12 07:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク