Speaker attribution in German parliamentary debates with QLoRA-adapted large language models

要約

政治文書の増加により、政治力学やイデオロギーについての豊かな洞察を得る新たな機会が開かれていますが、手作業による分析の作業量も増加しています。
自動話者属性は、音声イベント内で誰が誰に何を言ったかを検出し、意味的役割のラベル付けと密接に関連しており、計算によるテキスト分析の重要な処理ステップです。
私たちは、2017 年から 2021 年のドイツの議会討論における話者の帰属を自動化するための大規模言語モデル ファミリ Llama 2 の可能性を研究しています。
私たちは、効率的なトレーニング戦略である QLoRA を使用して Llama 2 を微調整し、ドイツのニュース記事と議会の討論における講演者の属性に関する GermEval 2023 共有タスクで競争力のあるパフォーマンスを達成するためのアプローチを観察しました。
私たちの結果は、話者帰属の自動化における大規模言語モデルの機能に光を当て、政治的言説の計算分析と意味的役割ラベル付けシステムの開発に有望な道を明らかにしました。

要約(オリジナル)

The growing body of political texts opens up new opportunities for rich insights into political dynamics and ideologies but also increases the workload for manual analysis. Automated speaker attribution, which detects who said what to whom in a speech event and is closely related to semantic role labeling, is an important processing step for computational text analysis. We study the potential of the large language model family Llama 2 to automate speaker attribution in German parliamentary debates from 2017-2021. We fine-tune Llama 2 with QLoRA, an efficient training strategy, and observe our approach to achieve competitive performance in the GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debates. Our results shed light on the capabilities of large language models in automating speaker attribution, revealing a promising avenue for computational analysis of political discourse and the development of semantic role labeling systems.

arxiv情報

著者 Tobias Bornheim,Niklas Grieger,Patrick Gustav Blaneck,Stephan Bialonski
発行日 2023-09-18 16:06:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク