The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings

要約

私たちは、1998 年から 2022 年の間にイスラエル議会で開催されたすべての議定書 (本会議および委員会) からの 3,000 万以上の文 (3 億 8,400 万以上のトークン) を含むヘブライ語の議会議事録のコーパスであるクネセト コーパスを紹介します。文には形態構文情報が注釈されています。
これらは、私たちが収集した国会議員と派閥の大規模なデータベースに基づいて、発言者の人口統計的および政治的特性を反映する詳細なメタ情報に関連付けられています。
コーパスの構造と構成、およびコーパスに適用したさまざまな処理ステップについて説明します。
この新しいデータセットの有用性を実証するために、2 つの使用例を紹介します。
我々は、時間の経過とともに議事録の豊富な語彙が減少することを示すことにより、政治的議論のスタイルにおける歴史的発展を調べるためにコーパスを使用できることを示します。
また、男性と女性のスピーカーのスタイルの違いについても調査します。
これらの使用例は、言語学、政治学、コミュニケーション、法律などの研究をサポートし、イスラエル社会の重要な傾向に光を当てるコーパスの可能性を例示しています。

要約(オリジナル)

We present the Knesset Corpus, a corpus of Hebrew parliamentary proceedings containing over 30 million sentences (over 384 million tokens) from all the (plenary and committee) protocols held in the Israeli parliament between 1998 and 2022. Sentences are annotated with morpho-syntactic information and are associated with detailed meta-information reflecting demographic and political properties of the speakers, based on a large database of parliament members and factions that we compiled. We discuss the structure and composition of the corpus and the various processing steps we applied to it. To demonstrate the utility of this novel dataset we present two use cases. We show that the corpus can be used to examine historical developments in the style of political discussions by showing a reduction in lexical richness in the proceedings over time. We also investigate some differences between the styles of men and women speakers. These use cases exemplify the potential of the corpus to shed light on important trends in the Israeli society, supporting research in linguistics, political science, communication, law, etc.

arxiv情報

著者 Gili Goldin,Nick Howell,Noam Ordan,Ella Rabinovich,Shuly Wintner
発行日 2024-05-28 12:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク