Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems

要約

自動スピーキング評価のための逐語的転写は、エラー分析やフィードバックなどの下流タスクに不可欠な、排出の正確なキャプチャを要求します。
ただし、多くのASRシステムはためらうことを破棄または一般化し、重要な音響の詳細を失います。
外部オーディオトレーニングデータに頼ることなく、低ランク適応(LORA)を使用して、Speak&改善の2025コーパスでささやきモデルを微調整します。
3つのアノテーションスキームを比較します:既存のオーディオ転写ペアからGemini 2.0フラッシュによって推測されるため、ためらう(純粋)、汎用タグ(リッチ)、および音響的に正確なフィラーを削除します。
チャレンジシステムは、6.47%のWER(純粋)および5.81%(追加)を達成しました。
チャレンジ後の実験により、微調整されたささやきの大きなV3ターボが「追加」スキームを使用して5.5%が得られ、「純粋な」スキーム(6.2%)より11.3%の相対的な改善が得られました。
これは、明示的で現実的な塗りつぶしの標識が、逐語的なL2音声転写のASR精度を大幅に向上させることを示しています。

要約(オリジナル)

Verbatim transcription for automatic speaking assessment demands accurate capture of disfluencies, crucial for downstream tasks like error analysis and feedback. However, many ASR systems discard or generalize hesitations, losing important acoustic details. We fine-tune Whisper models on the Speak & Improve 2025 corpus using low-rank adaptation (LoRA), without recourse to external audio training data. We compare three annotation schemes: removing hesitations (Pure), generic tags (Rich), and acoustically precise fillers inferred by Gemini 2.0 Flash from existing audio-transcript pairs (Extra). Our challenge system achieved 6.47% WER (Pure) and 5.81% WER (Extra). Post-challenge experiments reveal that fine-tuning Whisper Large V3 Turbo with the ‘Extra’ scheme yielded a 5.5% WER, an 11.3% relative improvement over the ‘Pure’ scheme (6.2% WER). This demonstrates that explicit, realistic filled-pause labeling significantly enhances ASR accuracy for verbatim L2 speech transcription.

arxiv情報

著者 Jhen-Ke Lin,Hao-Chien Lu,Chung-Chun Wang,Hong-Yun Lin,Berlin Chen
発行日 2025-06-04 15:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク