STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

要約

このレポートでは、Ego4D Challenge 2023 のオーディオビジュアルダイアライゼーションタスク用の STHG という名前の新しいメソッドを紹介します。私たちの主な革新は、単一の統合された異種グラフ学習フレームワークを使用してビデオ内のすべての発言者をモデル化していることです。
カメラの着用者専用に別個のコンポーネントを必要とするこれまでのアプローチとは異なり、STHG はカメラの着用者を含むすべての人の音声アクティビティを共同で検出できます。
私たちの最終的な方法では、Ego4D のテスト セットで 61.1% の DER が得られ、すべてのベースラインおよび昨年の勝者を大幅に上回りました。
私たちの提出物は、Ego4D Challenge 2023 で 1 位を獲得しました。さらに、STHG によってダイアライズされた音声セグメントに既製の音声認識システムを適用すると、このチャレンジの音声文字起こしタスクで競争力のあるパフォーマンスが得られることを実証しました。

要約(オリジナル)

This report introduces our novel method named STHG for the Audio-Visual Diarization task of the Ego4D Challenge 2023. Our key innovation is that we model all the speakers in a video using a single, unified heterogeneous graph learning framework. Unlike previous approaches that require a separate component solely for the camera wearer, STHG can jointly detect the speech activities of all people including the camera wearer. Our final method obtains 61.1% DER on the test set of Ego4D, which significantly outperforms all the baselines as well as last year’s winner. Our submission achieved 1st place in the Ego4D Challenge 2023. We additionally demonstrate that applying the off-the-shelf speech recognition system to the diarized speech segments by STHG produces a competitive performance on the Speech Transcription task of this challenge.

arxiv情報

著者 Kyle Min
発行日 2023-08-10 17:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク