Classifying multilingual party manifestos: Domain transfer across country, time, and genre

要約

大規模なコーパスの注釈コストは、依然として社会科学の実証研究における主なボトルネックの 1 つです。
一方で、ドメイン転送の機能を利用すると、アノテーション付きのデータセットやトレーニングされたモデルを再利用できます。
一方で、ドメイン移管がどの程度うまく機能するのか、また異なる次元間での移管結果がどの程度信頼できるのかは明らかではありません。
私たちは、政治マニフェストの大規模データベースで、地理的場所、言語、時間、ジャンルを超えたドメイン移転の可能性を調査します。
まず、微調整されたトランスフォーマー モデルの強力なドメイン内分類パフォーマンスを示します。
次に、微調整されたモデルの堅牢性と移行性をテストするために、前述の次元にわたってテスト セットのジャンルを変更します。
ジャンルを切り替えるには、ニュージーランドの政治家によるスピーチを書き起こした外部コーパスを使用しますが、他の 3 つの側面については、マニフェスト データベースのカスタム分割を使用します。
BERT はモダリティ全体で最初の実験で最高のスコアを達成しますが、DistilBERT はより低い計算コストで競争力があることが証明されているため、時代や国を超えてさらなる実験に使用されています。
追加の分析の結果は、(Distil)BERT が同様のパフォーマンスで将来のデータに適用できることを示しています。
さらに、たとえこれらの国が言語や文化的背景を共有していたとしても、異なる出身国の政治マニフェストには(部分的に)顕著な違いがあることが観察されています。

要約(オリジナル)

Annotating costs of large corpora are still one of the main bottlenecks in empirical social science research. On the one hand, making use of the capabilities of domain transfer allows re-using annotated data sets and trained models. On the other hand, it is not clear how well domain transfer works and how reliable the results are for transfer across different dimensions. We explore the potential of domain transfer across geographical locations, languages, time, and genre in a large-scale database of political manifestos. First, we show the strong within-domain classification performance of fine-tuned transformer models. Second, we vary the genre of the test set across the aforementioned dimensions to test for the fine-tuned models’ robustness and transferability. For switching genres, we use an external corpus of transcribed speeches from New Zealand politicians while for the other three dimensions, custom splits of the Manifesto database are used. While BERT achieves the best scores in the initial experiments across modalities, DistilBERT proves to be competitive at a lower computational expense and is thus used for further experiments across time and country. The results of the additional analysis show that (Distil)BERT can be applied to future data with similar performance. Moreover, we observe (partly) notable differences between the political manifestos of different countries of origin, even if these countries share a language or a cultural background.

arxiv情報

著者 Matthias Aßenmacher,Nadja Sauter,Christian Heumann
発行日 2023-07-31 09:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG, stat.ML パーマリンク