要約
過去 10 年間の指数関数的なデータの増加は、機械学習ベースのアルゴリズムの能力を提供し、日常生活での使用を可能にしました。
さらに、このような改善は、深層学習技術、つまり、より複雑なモデルになる単純なアーキテクチャのスタックの出現により、部分的に説明されています。
どちらの要因も優れた結果をもたらしますが、大規模なデータセットで複雑なモデルをトレーニングするには費用と時間がかかるため、学習プロセスに関して欠点もあります。
このような問題は、ビデオ分析を扱う場合にさらに顕著になります。
一部の研究では、転移学習またはドメイン適応、つまり、トレーニングの負担を軽減するために知識をあるドメインから別のドメインにマッピングするアプローチを検討していますが、それらのほとんどはフレームの個々のブロックまたは小さなブロックで動作します。
この論文では、Spectral Deep Belief Network と呼ばれるエネルギーベースのモデルを使用して、行動認識からイベント認識に知識をマッピングするための新しいアプローチを提案します。
このようなモデルは、すべてのフレームを同時に処理し、学習プロセスを通じて空間情報と時間情報を運ぶことができます。
HMDB-51 と UCF-101 の 2 つの公開ビデオ データセットに対して実施された実験結果は、制限付きボルツマン マシンやディープ ビリーフ ネットワークなどの従来のエネルギーベースのモデルと比較した場合の、提案されたモデルの有効性と計算負荷の軽減を示しています。
.
要約(オリジナル)
In the last decade, exponential data growth supplied machine learning-based algorithms’ capacity and enabled their usage in daily-life activities. Additionally, such an improvement is partially explained due to the advent of deep learning techniques, i.e., stacks of simple architectures that end up in more complex models. Although both factors produce outstanding results, they also pose drawbacks regarding the learning process as training complex models over large datasets are expensive and time-consuming. Such a problem is even more evident when dealing with video analysis. Some works have considered transfer learning or domain adaptation, i.e., approaches that map the knowledge from one domain to another, to ease the training burden, yet most of them operate over individual or small blocks of frames. This paper proposes a novel approach to map the knowledge from action recognition to event recognition using an energy-based model, denoted as Spectral Deep Belief Network. Such a model can process all frames simultaneously, carrying spatial and temporal information through the learning process. The experimental results conducted over two public video dataset, the HMDB-51 and the UCF-101, depict the effectiveness of the proposed model and its reduced computational burden when compared to traditional energy-based models, such as Restricted Boltzmann Machines and Deep Belief Networks.
arxiv情報
著者 | Mateus Roder,Jurandy Almeida,Gustavo H. de Rosa,Leandro A. Passos,André L. D. Rossi,João P. Papa |
発行日 | 2022-11-30 14:47:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google