ttta: Tools for Temporal Text Analysis

要約

テキストデータは本質的に一時的です。
単語やフレーズの意味は時間とともに変化し、それらが使用されるコンテキストは常に進化しています。
これは、使用される言語が現在のイベント、ミーム、トレンドに急速に影響を受けるソーシャルメディアデータだけでなく、ジャーナリズム、経済、または政治的なテキストデータにも当てはまります。
ただし、ほとんどのNLP技術では、手元のコーパスが時間に関して均質であると考えています。
これは、単語やフレーズの意味が時間とともに変化する可能性があるため、偏った結果につながる可能性のある単純化です。
たとえば、数年にわたるコーパスで古典的な潜在的なディリクレの割り当てを実行するだけでは、時間の経過とともにトピックの変化をキャプチャするのに十分ではありませんが、全体で「平均的な」トピック分布のみをポートレートします。
研究者は、時間の経過とともにテキストデータを分析するための多くのツールを開発しました。
ただし、これらのツールはさまざまなパッケージやライブラリに散在することが多いため、研究者が一貫した再現性のある方法で使用することが困難です。
TTTAパッケージは、時間の経過とともにテキストデータを分析するためのツールのコレクションとして機能することになっています。

要約(オリジナル)

Text data is inherently temporal. The meaning of words and phrases changes over time, and the context in which they are used is constantly evolving. This is not just true for social media data, where the language used is rapidly influenced by current events, memes and trends, but also for journalistic, economic or political text data. Most NLP techniques however consider the corpus at hand to be homogenous in regard to time. This is a simplification that can lead to biased results, as the meaning of words and phrases can change over time. For instance, running a classic Latent Dirichlet Allocation on a corpus that spans several years is not enough to capture changes in the topics over time, but only portraits an ‘average’ topic distribution over the whole time span. Researchers have developed a number of tools for analyzing text data over time. However, these tools are often scattered across different packages and libraries, making it difficult for researchers to use them in a consistent and reproducible way. The ttta package is supposed to serve as a collection of tools for analyzing text data over time.

arxiv情報

著者 Kai-Robin Lange,Niklas Benner,Lars Grönberg,Aymane Hachcham,Imene Kolli,Jonas Rieger,Carsten Jentsch
発行日 2025-03-04 13:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク