要約
我々は、知覚的に意味のある特徴をグラフに符号化した簡潔な動画像表現を提案する。この表現により、動画像の持つ大量の冗長性を活用し、計算量を削減することを目指す。まず、スーパーピクセルをグラフのノードとみなし、隣接するスーパーピクセルの間に空間的・時間的なつながりを持たせることで、スーパーピクセルベースの動画像のグラフ表現を構築する。次に、グラフ畳み込みネットワークを用いて、この表現を処理し、所望の出力を予測する。その結果、より少ないパラメータでモデルを学習することが可能となり、学習期間の短縮と計算機資源の削減を実現する。一般に公開されているデータセットKinetics-400とCharadesを用いた包括的な実験により、提案手法は非常に費用対効果が高く、学習と推論の際に限られたコモディティハードウェアしか使用しないことが示された。また、計算量を10倍削減しながら、最新の手法に匹敵する結果を得ることができる。提案手法は、映像理解をより効率的に解決するための扉を開き、より多くのリソースが限られたユーザーがこの研究分野で活躍できるようにするための有望な方向性であると確信しています。
要約(オリジナル)
We propose a concise representation of videos that encode perceptually meaningful features into graphs. With this representation, we aim to leverage the large amount of redundancies in videos and save computations. First, we construct superpixel-based graph representations of videos by considering superpixels as graph nodes and create spatial and temporal connections between adjacent superpixels. Then, we leverage Graph Convolutional Networks to process this representation and predict the desired output. As a result, we are able to train models with much fewer parameters, which translates into short training periods and a reduction in computation resource requirements. A comprehensive experimental study on the publicly available datasets Kinetics-400 and Charades shows that the proposed method is highly cost-effective and uses limited commodity hardware during training and inference. It reduces the computational requirements 10-fold while achieving results that are comparable to state-of-the-art methods. We believe that the proposed approach is a promising direction that could open the door to solving video understanding more efficiently and enable more resource limited users to thrive in this research field.
arxiv情報
著者 | Eitan Kosman,Dotan Di Castro |
発行日 | 2022-07-04 12:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |