要約
本論文では、事前に学習したフレームベースCNNを高速化し、標準的なフレームごとの処理と比較して、より効率的に動画を処理する方式であるBlockCopyを提案する。この目的のために、軽量ポリシーネットワークが画像中の重要な領域を決定し、操作はカスタムブロック-スパース畳み込みを使用して、選択された領域のみに適用される。非選択領域の特徴量は直前のフレームから単純にコピーされるため、計算回数と待ち時間を削減することができる。実行方針は強化学習により、グランドトゥルースアノテーションを必要としないオンライン方式で学習される。我々の普遍的なフレームワークは、最新技術(Center and Scale Predictor, MGAN, SwiftNet)と標準的なベースラインネットワーク(Mask-RCNN, DeepLabV3+)の両方を用いて、歩行者検出、インスタンス分割、意味分割などの高密度予測タスクで実証されている。BlockCopyは、精度への影響を最小限に抑えながら、大幅なFLOPSの削減と推論の高速化を実現します。
要約(オリジナル)
In this paper we propose BlockCopy, a scheme that accelerates pretrained frame-based CNNs to process video more efficiently, compared to standard frame-by-frame processing. To this end, a lightweight policy network determines important regions in an image, and operations are applied on selected regions only, using custom block-sparse convolutions. Features of non-selected regions are simply copied from the preceding frame, reducing the number of computations and latency. The execution policy is trained using reinforcement learning in an online fashion without requiring ground truth annotations. Our universal framework is demonstrated on dense prediction tasks such as pedestrian detection, instance segmentation and semantic segmentation, using both state of the art (Center and Scale Predictor, MGAN, SwiftNet) and standard baseline networks (Mask-RCNN, DeepLabV3+). BlockCopy achieves significant FLOPS savings and inference speedup with minimal impact on accuracy.
arxiv情報
| 著者 | Thomas Verelst,Tinne Tuytelaars |
| 発行日 | 2022-08-05 14:21:05+00:00 |
| arxivサイト | arxiv_id(pdf) |