要約
ビデオデータから話し言葉を解読する視覚音声認識(VSR)は、特にオーディオが利用できない場合に大きな利点を提供します。
ただし、ビデオデータの高次元は、強力なハードウェアを要求する法外な計算コストにつながり、リソース制約のデバイスでのVSR展開を制限します。
この作業は、軽量VSRアーキテクチャを開発することにより、この制限に対処します。
効率的な操作設計パラダイムを活用すると、リソース要件が削減され、精度損失が最小限のコンパクトで強力なモデルが作成されます。
ビデオシーケンスからの単語を認識するために、大規模なパブリックデータセットでモデルをトレーニングおよび評価し、実用的なアプリケーションの有効性を示しています。
また、各モデルのサイズと複雑さを徹底的に分析するために、広範なアブレーション実験を実施します。
コードと訓練されたモデルは公開されます。
要約(オリジナル)
Visual speech recognition (VSR), which decodes spoken words from video data, offers significant benefits, particularly when audio is unavailable. However, the high dimensionality of video data leads to prohibitive computational costs that demand powerful hardware, limiting VSR deployment on resource-constrained devices. This work addresses this limitation by developing lightweight VSR architectures. Leveraging efficient operation design paradigms, we create compact yet powerful models with reduced resource requirements and minimal accuracy loss. We train and evaluate our models on a large-scale public dataset for recognition of words from video sequences, demonstrating their effectiveness for practical applications. We also conduct an extensive array of ablative experiments to thoroughly analyze the size and complexity of each model. Code and trained models will be made publicly available.
arxiv情報
著者 | Iason Ioannis Panagos,Giorgos Sfikas,Christophoros Nikou |
発行日 | 2025-02-07 11:08:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google