What’s under the hood: Investigating Automatic Metrics on Meeting Summarization

要約

オンラインでのやり取りの増加を考慮すると、会議の要約は重要なタスクになっています。
新しい手法は定期的に導入されますが、その評価には会議固有のエラーを把握するように設計されていない指標が使用されており、効果的な評価が損なわれています。
このペーパーでは、広範なエラー分類法全体にわたって自動メトリック スコアと人間の評価を相関させることにより、頻繁に使用される自動メトリックが何をキャプチャし、どのエラーをマスクするかを調査します。
私たちは、英語での会議の要約に関する包括的な文献レビューから開始し、話者のダイナミクスや状況に応じた順番の交代などの主要な課題と、情報の欠落や言語的不正確さなどのエラーの種類、つまりこの分野で以前は大まかに定義されていた概念を定義します。
注釈付きトランスクリプトと、Transformer ベースのシーケンス間モデルおよび一般的なサマリー QMSum データセットの自己回帰モデルからのサマリーを使用して、特徴的な課題とエラーの関係を調べます。
実験的な検証を通じて、さまざまなモデル アーキテクチャが議事録を作成する際の課題にさまざまに反応し、その結果、課題とエラーの間の顕著な関連性が異な​​ることがわかりました。
現在デフォルトで使用されているメトリクスは、観察可能なエラーを捕捉するのに苦労しており、弱い相関から中程度の相関を示していますが、相関の 3 分の 1 はエラー マスキングの傾向を示しています。
特定のエラーに正確に反応するのはサブセットだけですが、ほとんどの相関関係では応答がないか、エラーが要約品質に与える影響を反映できていません。

要約(オリジナル)

Meeting summarization has become a critical task considering the increase in online interactions. While new techniques are introduced regularly, their evaluation uses metrics not designed to capture meeting-specific errors, undermining effective evaluation. This paper investigates what the frequently used automatic metrics capture and which errors they mask by correlating automatic metric scores with human evaluations across a broad error taxonomy. We commence with a comprehensive literature review on English meeting summarization to define key challenges like speaker dynamics and contextual turn-taking and error types such as missing information and linguistic inaccuracy, concepts previously loosely defined in the field. We examine the relationship between characteristic challenges and errors by using annotated transcripts and summaries from Transformer-based sequence-to-sequence and autoregressive models from the general summary QMSum dataset. Through experimental validation, we find that different model architectures respond variably to challenges in meeting transcripts, resulting in different pronounced links between challenges and errors. Current default-used metrics struggle to capture observable errors, showing weak to mid-correlations, while a third of the correlations show trends of error masking. Only a subset reacts accurately to specific errors, while most correlations show either unresponsiveness or failure to reflect the error’s impact on summary quality.

arxiv情報

著者 Frederic Kirstein,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2024-10-18 15:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク