An Efficient and Streaming Audio Visual Active Speaker Detection System

要約

このペーパーでは、アクティブ スピーカー検出 (ASD) という困難なタスクについて詳しく説明します。このタスクでは、システムは、一連のビデオ フレーム内で人が話しているかどうかをリアルタイムで判断する必要があります。
これまでの研究では、ネットワーク アーキテクチャの改善と ASD の効果的な表現の学習において大きな進歩が見られましたが、リアルタイム システム展開の探求には重大なギャップが存在します。
既存のモデルは多くの場合、高いレイテンシとメモリ使用量に悩まされ、即時のアプリケーションには実用的ではありません。
このギャップを埋めるために、リアルタイムの制約によってもたらされる主要な課題に対処する 2 つのシナリオを紹介します。
まず、ASD モデルによって使用される将来のコンテキスト フレームの数を制限する方法を紹介します。
そうすることで、決定が下される前に将来のフレームのシーケンス全体を処理する必要性が軽減され、待ち時間が大幅に短縮されます。
2 番目に、モデルが推論中にアクセスできる過去のフレームの総数を制限する、より厳しい制約を提案します。
これにより、ストリーミング ASD システムの実行に関連する永続メモリの問題が解決されます。
これらの理論的枠組みを超えて、私たちはアプローチを検証するために広範な実験を実施します。
私たちの結果は、制約付きトランスフォーマー モデルが、コンテキスト フレームの数を大幅に削減しながら、単方向 GRU などの最先端のリカレント モデルと同等またはそれ以上のパフォーマンスを達成できることを示しています。
さらに、ASD システムの一時メモリ要件に光を当て、より大きな過去のコンテキストが将来のコンテキストよりも精度に大きな影響を与えることを明らかにしました。
CPU でプロファイリングを行うと、効率的なアーキテクチャは、使用できる過去のコンテキストの量によってメモリが制限されており、メモリ コストに比べてコンピューティング コストが無視できることがわかります。

要約(オリジナル)

This paper delves into the challenging task of Active Speaker Detection (ASD), where the system needs to determine in real-time whether a person is speaking or not in a series of video frames. While previous works have made significant strides in improving network architectures and learning effective representations for ASD, a critical gap exists in the exploration of real-time system deployment. Existing models often suffer from high latency and memory usage, rendering them impractical for immediate applications. To bridge this gap, we present two scenarios that address the key challenges posed by real-time constraints. First, we introduce a method to limit the number of future context frames utilized by the ASD model. By doing so, we alleviate the need for processing the entire sequence of future frames before a decision is made, significantly reducing latency. Second, we propose a more stringent constraint that limits the total number of past frames the model can access during inference. This tackles the persistent memory issues associated with running streaming ASD systems. Beyond these theoretical frameworks, we conduct extensive experiments to validate our approach. Our results demonstrate that constrained transformer models can achieve performance comparable to or even better than state-of-the-art recurrent models, such as uni-directional GRUs, with a significantly reduced number of context frames. Moreover, we shed light on the temporal memory requirements of ASD systems, revealing that larger past context has a more profound impact on accuracy than future context. When profiling on a CPU we find that our efficient architecture is memory bound by the amount of past context it can use and that the compute cost is negligible as compared to the memory cost.

arxiv情報

著者 Arnav Kundu,Yanzi Jin,Mohammad Sekhavat,Max Horton,Danny Tormoen,Devang Naik
発行日 2024-09-13 17:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク