要約
大規模なテキストコーパスの新しい概念を特定するための新しい方法を紹介します。
基礎となる埋め込みスペースのヒートマップの変化を分析することにより、これらの概念が発生した直後に高精度でこれらの概念を検出することができます。
さらに、1941年から2015年までの米国上院でのスピーチを分析することにより、アプローチの有用性を実証します。我々の結果は、少数党が上院の談話に新しい概念を導入する際により積極的であることを示唆しています。
また、上院議員の人種、民族、性別のアイデンティティと密接に相関する特定の概念も特定します。
私たちの方法の実装は公開されています。
要約(オリジナル)
We introduce a new method to identify emerging concepts in large text corpora. By analyzing changes in the heatmaps of the underlying embedding space, we are able to detect these concepts with high accuracy shortly after they originate, in turn outperforming common alternatives. We further demonstrate the utility of our approach by analyzing speeches in the U.S. Senate from 1941 to 2015. Our results suggest that the minority party is more active in introducing new concepts into the Senate discourse. We also identify specific concepts that closely correlate with the Senators’ racial, ethnic, and gender identities. An implementation of our method is publicly available.
arxiv情報
| 著者 | Sibo Ma,Julian Nyarko |
| 発行日 | 2025-02-28 18:59:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google