Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU

要約

このペーパーでは、スイスの議員コーパスの新しい長期のリリースを紹介し、複数時間のスイスドイツの議論セッション(それぞれが公式セッションプロトコルと並んでいる)全体を高品質の音声テキストペアに変換します。
私たちのパイプラインは、すべてのセッションオーディオを高計量設定の下でWhisper Large-V3を使用して標準のドイツ語に転写することから始まります。
次に、2段階のGPT-4O補正プロセスを適用します。まず、GPT-4Oは、主に名前が付けられたエンティティ(主に名前が付けられた誤認識)を改良するために、公式プロトコルと一緒に生のウィスパー出力を摂取します。
第二に、別のGPT-4Oパスは、セマンティックの完全性について各洗練されたセグメントを評価します。
予測されたBLEUスコア(Whisperの平均トークンログパロビーズ性に由来する)およびGPT-4O評価スコアが特定のしきい値を下回るセグメントを除外します。
最後のコーパスには801時間のオーディオが含まれており、そのうち751時間は品質管理を通過します。
元の文レベルのSPCリリースと比較して、当社の長型データセットは6ポイントのBLEUの改善を実現し、低リソース、ドメイン固有の音声コーパスのための堅牢なASR、LLMベースの修正、およびデータ駆動型フィルタリングを組み合わせる力を実証します。

要約(オリジナル)

This paper presents a new long-form release of the Swiss Parliaments Corpus, converting entire multi-hour Swiss German debate sessions (each aligned with the official session protocols) into high-quality speech-text pairs. Our pipeline starts by transcribing all session audio into Standard German using Whisper Large-v3 under high-compute settings. We then apply a two-step GPT-4o correction process: first, GPT-4o ingests the raw Whisper output alongside the official protocols to refine misrecognitions, mainly named entities. Second, a separate GPT-4o pass evaluates each refined segment for semantic completeness. We filter out any segments whose Predicted BLEU score (derived from Whisper’s average token log-probability) and GPT-4o evaluation score fall below a certain threshold. The final corpus contains 801 hours of audio, of which 751 hours pass our quality control. Compared to the original sentence-level SPC release, our long-form dataset achieves a 6-point BLEU improvement, demonstrating the power of combining robust ASR, LLM-based correction, and data-driven filtering for low-resource, domain-specific speech corpora.

arxiv情報

著者 Vincenzo Timmel,Manfred Vogel,Daniel Perruchoud,Reza Kakooee
発行日 2025-06-09 13:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク