要約
公開討論会で主張を展開する政治的主体を特定することは、社会的議論の分析に役立つ言説ネットワークの構築における重要なステップです。
ただし、俳優の特定はかなり困難です。多くの場合、ローカルで言及されている主張の発言者は単なる代名詞 (「彼は [主張] を提案した」) であるため、正規の俳優名を復元するには談話の理解を必要とします。
専用の NLP コンポーネント (相互参照の関連タスクに適用されるものと同様) の従来のパイプラインを、この生成タスクによく適合すると思われる LLM と比較します。
新聞報道にあるドイツの俳優のコーパスを評価すると、驚くべきことに LLM のパフォーマンスが劣っていることがわかりました。
さらに分析すると、LLM は正しい参照を識別するのには非常に優れていますが、正しい正規形式を生成するのに苦労していることがわかります。
これは、生成された出力の制御に関する LLM の根本的な問題を示しています。
実際、LLM と分類器を組み合わせてその出力を正規化するハイブリッド モデルは、両方の初期モデルよりも大幅に優れたパフォーマンスを発揮します。
要約(オリジナル)
The identification of political actors who put forward claims in public debate is a crucial step in the construction of discourse networks, which are helpful to analyze societal debates. Actor identification is, however, rather challenging: Often, the locally mentioned speaker of a claim is only a pronoun (‘He proposed that [claim]’), so recovering the canonical actor name requires discourse understanding. We compare a traditional pipeline of dedicated NLP components (similar to those applied to the related task of coreference) with a LLM, which appears a good match for this generation task. Evaluating on a corpus of German actors in newspaper reports, we find surprisingly that the LLM performs worse. Further analysis reveals that the LLM is very good at identifying the right reference, but struggles to generate the correct canonical form. This points to an underlying issue in LLMs with controlling generated output. Indeed, a hybrid model combining the LLM with a classifier to normalize its output substantially outperforms both initial models.
arxiv情報
| 著者 | Ana Barić,Sean Papay,Sebastian Padó |
| 発行日 | 2024-02-01 14:30:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google