要約
政治文書や演説への自然言語処理の適用は、一人では読めない膨大なテキストコーパスを分析できるため、政治科学においてますます関連性が高まっています。
しかし、そのようなテキストコーパスには、より詳細な研究課題に合わせた分析を提供するために使用できる、たとえば話者の政党、年齢、選挙区などの詳細を示す重要なメタ情報が欠けていることがよくあります。
研究者が自然言語処理などの定量的アプローチを使用してこのような質問に答えられるようにするために、私たちは、1947 年から 2023 年までのドイツ連邦議会とドイツの 16 の連邦州すべてでのドイツ議会の討論からなる SpeakGer データセットを提供しています。
10,806,105 件のスピーチのうち。
このデータセットには、スピーチに対する聴衆の反応と、発言者の政党、年齢、選挙区、政党の政治的連携に関する情報の両方に関する情報の形で豊富なメタデータが含まれており、より深い分析が可能になります。
さらに、時間の経過に伴うさまざまな政党の話題のシェアを詳述する 3 つの探索的分析、平均的な話者の年齢の推移に関する記述的分析、および新型コロナウイルス感染症のパンデミックに関するさまざまな政党のスピーチのセンチメント分析を提供します。
要約(オリジナル)
The application of natural language processing on political texts as well as speeches has become increasingly relevant in political sciences due to the ability to analyze large text corpora which cannot be read by a single person. But such text corpora often lack critical meta information, detailing for instance the party, age or constituency of the speaker, that can be used to provide an analysis tailored to more fine-grained research questions. To enable researchers to answer such questions with quantitative approaches such as natural language processing, we provide the SpeakGer data set, consisting of German parliament debates from all 16 federal states of Germany as well as the German Bundestag from 1947-2023, split into a total of 10,806,105 speeches. This data set includes rich meta data in form of information on both reactions from the audience towards the speech as well as information about the speaker’s party, their age, their constituency and their party’s political alignment, which enables a deeper analysis. We further provide three exploratory analyses, detailing topic shares of different parties throughout time, a descriptive analysis of the development of the age of an average speaker as well as a sentiment analysis of speeches of different parties with regards to the COVID-19 pandemic.
arxiv情報
著者 | Kai-Robin Lange,Carsten Jentsch |
発行日 | 2024-10-23 14:00:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google