要約
政治的テキストの増加は、政治力学やイデオロギーに対する豊かな洞察の新たな機会を開くが、同時に手作業による分析の作業負荷を増大させる。自動化された話者の帰属は、スピーチイベントで誰が誰に何を言ったかを検出し、意味的役割のラベリングと密接に関連しており、計算機によるテキスト解析の重要な処理ステップである。我々は、2017年から2021年までのドイツ議会討論における話者帰属を自動化するための大規模言語モデルファミリーLlama 2の可能性を研究する。我々は、効率的な学習戦略であるQLoRAを用いてLlama 2を微調整し、GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debatesにおいて競争力のあるパフォーマンスを達成する我々のアプローチを観察する。我々の結果は、話者の帰属を自動化するための大規模言語モデルの能力に光を当て、政治的談話の計算論的分析と意味的役割ラベリングシステムの開発のための有望な道を明らかにする。
要約(オリジナル)
The growing body of political texts opens up new opportunities for rich insights into political dynamics and ideologies but also increases the workload for manual analysis. Automated speaker attribution, which detects who said what to whom in a speech event and is closely related to semantic role labeling, is an important processing step for computational text analysis. We study the potential of the large language model family Llama 2 to automate speaker attribution in German parliamentary debates from 2017-2021. We fine-tune Llama 2 with QLoRA, an efficient training strategy, and observe our approach to achieve competitive performance in the GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debates. Our results shed light on the capabilities of large language models in automating speaker attribution, revealing a promising avenue for computational analysis of political discourse and the development of semantic role labeling systems.
arxiv情報
著者 | Tobias Bornheim,Niklas Grieger,Patrick Gustav Blaneck,Stephan Bialonski |
発行日 | 2024-03-01 10:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |