Strategies for political-statement segmentation and labelling in unstructured text

要約

議会のスピーチと政治パーティマニフェストの分析は、政治的テキストの計算研究の不可欠な分野になりました。
スピーチは監視されていない方法を使用して圧倒的に分析されていますが、Marpor Projectの参加者によって条件別の政治的スタンスラベルを持つマニフェストの大きなコーパスが作成されました。
これらのラベルはニューラルモデルによって予測できることが最近示されました。
ただし、現在のアプローチは、提供されたステートメントの境界に依存しており、ドメイン外の適用性を制限しています。
この作業では、線形鎖CRF、微調整されたテキストモデル、および制約付きデコードとのコンテキスト内学習の組み合わせに基づいて、一連の統合されたスプリットアンドラベルフレームワークを提案およびテストします。
私たちのアプローチは、政治的マニフェストの生のテキストに適用されると競争の正確さを達成し、それを英国下院の記録に適用し、過去30年間に4つの主要政党の政治的軌跡をたどることにより、私たちの方法の研究の可能性を実証することを示します。

要約(オリジナル)

Analysis of parliamentary speeches and political-party manifestos has become an integral area of computational study of political texts. While speeches have been overwhelmingly analysed using unsupervised methods, a large corpus of manifestos with by-statement political-stance labels has been created by the participants of the MARPOR project. It has been recently shown that these labels can be predicted by a neural model; however, the current approach relies on provided statement boundaries, limiting out-of-domain applicability. In this work, we propose and test a range of unified split-and-label frameworks — based on linear-chain CRFs, fine-tuned text-to-text models, and the combination of in-context learning with constrained decoding — that can be used to jointly segment and classify statements from raw textual data. We show that our approaches achieve competitive accuracy when applied to raw text of political manifestos, and then demonstrate the research potential of our method by applying it to the records of the UK House of Commons and tracing the political trajectories of four major parties in the last three decades.

arxiv情報

著者 Dmitry Nikolaev,Sean Papay
発行日 2025-03-10 10:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク