Temporal Lift Pooling for Continuous Sign Language Recognition

要約

プーリング法は、受容野を増やし、計算コストを下げるための最新のニューラルネットワークの必需品です。
ただし、一般的に使用される手作りのプーリングアプローチ(最大プーリングや平均プーリングなど)では、識別機能が十分に保持されない場合があります。
多くの研究者は、これらの制限を大幅に処理するために空間領域でさまざまなプーリングバリアントを精巧に設計しましたが、手作りの方法やこれらの特殊な空間バリアントを直接適用することが最適でない場合、時間的側面にアクセスすることはめったにありません。
この論文では、信号処理のリフティングスキームから時間的リフトプーリング(TLP)を導き出し、さまざまな時間的階層の特徴をインテリジェントにダウンサンプリングします。
リフティングスキームは、入力信号をさまざまな周波数のさまざまなサブバンドに分解します。これは、さまざまな時間的移動パターンと見なすことができます。
TLPは3段階の手順であり、信号分解、コンポーネントの重み付け、および情報の融合を実行して、洗練されたダウンサイズのフィーチャマップを生成します。
TLPの有効性を検証するためのテストベッドとして、長いシーケンスを持つ典型的な時間的タスク、つまり連続手話認識(CSLR)を選択します。
2つの大規模なデータセットでの実験では、TLPは、同様の計算オーバーヘッドで、手作りの方法と特殊な空間バリアントを大幅に(1.5%)上回っています。
堅牢な特徴抽出器として、TLPは、さまざまなデータセットの複数のバックボーンで優れた一般化可能性を示し、2つの大規模CSLRデータセットで新しい最先端の結果を実現します。
視覚化は、光沢の境界を修正する際のTLPのメカニズムをさらに示します。
コードがリリースされました。

要約(オリジナル)

Pooling methods are necessities for modern neural networks for increasing receptive fields and lowering down computational costs. However, commonly used hand-crafted pooling approaches, e.g., max pooling and average pooling, may not well preserve discriminative features. While many researchers have elaborately designed various pooling variants in spatial domain to handle these limitations with much progress, the temporal aspect is rarely visited where directly applying hand-crafted methods or these specialized spatial variants may not be optimal. In this paper, we derive temporal lift pooling (TLP) from the Lifting Scheme in signal processing to intelligently downsample features of different temporal hierarchies. The Lifting Scheme factorizes input signals into various sub-bands with different frequency, which can be viewed as different temporal movement patterns. Our TLP is a three-stage procedure, which performs signal decomposition, component weighting and information fusion to generate a refined downsized feature map. We select a typical temporal task with long sequences, i.e. continuous sign language recognition (CSLR), as our testbed to verify the effectiveness of TLP. Experiments on two large-scale datasets show TLP outperforms hand-crafted methods and specialized spatial variants by a large margin (1.5%) with similar computational overhead. As a robust feature extractor, TLP exhibits great generalizability upon multiple backbones on various datasets and achieves new state-of-the-art results on two large-scale CSLR datasets. Visualizations further demonstrate the mechanism of TLP in correcting gloss borders. Code is released.

arxiv情報

著者 Lianyu Hu,Liqing Gao,Zekang Liu,Wei Feng
発行日 2022-07-18 16:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク