Developing Speech Processing Pipelines for Police Accountability

要約

警察の身体装着型カメラは、警察の責任と透明性を向上させる可能性を秘めています。
しかし実際には、何百万時間もの映像が決してレビューされないことになります。
私たちは、交通停止からの映像における ASR と警察官の音声検出に焦点を当て、レビューを容易にするための大規模な事前トレーニング済み音声モデルの可能性を調査します。
私たちが提案するパイプラインには、トレーニング データの調整とフィルタリング、リソース制約に合わせた微調整、完全に自動化されたアプローチのための役員音声検出と ASR の組み合わせが含まれます。
(1) 微調整により、役員の音声に対する ASR パフォーマンスが大幅に向上する (WER=12 ~ 13%)、(2) 役員の音声に対する ASR はコミュニティ メンバーの音声よりもはるかに正確である (WER=43.55 ~ 49.07%)、
(3) 警察官の音声検出や日記作成などのドメイン固有のタスクは依然として困難です。
私たちの研究は、ボディカメラの映像をレビューするための実用的なアプリケーションと、事前にトレーニングされた音声モデルを騒々しいマルチスピーカーの領域に適応させるための一般的なガイダンスを提供します。

要約(オリジナル)

Police body-worn cameras have the potential to improve accountability and transparency in policing. Yet in practice, they result in millions of hours of footage that is never reviewed. We investigate the potential of large pre-trained speech models for facilitating reviews, focusing on ASR and officer speech detection in footage from traffic stops. Our proposed pipeline includes training data alignment and filtering, fine-tuning with resource constraints, and combining officer speech detection with ASR for a fully automated approach. We find that (1) fine-tuning strongly improves ASR performance on officer speech (WER=12-13%), (2) ASR on officer speech is much more accurate than on community member speech (WER=43.55-49.07%), (3) domain-specific tasks like officer speech detection and diarization remain challenging. Our work offers practical applications for reviewing body camera footage and general guidance for adapting pre-trained speech models to noisy multi-speaker domains.

arxiv情報

著者 Anjalie Field,Prateek Verma,Nay San,Jennifer L. Eberhardt,Dan Jurafsky
発行日 2023-06-09 17:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク