要約
多くのビデオベースのアプリケーションにおける興味深い問題は、最も有益なフレームを選択することによる短い概要の生成です。これはビデオ要約として知られる手順です。
手話ビデオの場合、キーフレームを識別するために 2 次元の手話者の手首の軌道の曲率に相当する $t$ パラメータ化されたものを使用する利点が最近文献で報告されています。
この論文では、ビデオの各フレームから抽出された 3D 手の動きをモデル化することで、これらのアイデアを拡張します。
この目的のために、$t$ パラメータ化された 3 次元軌道の曲率とねじれに基づいた新しい有益な関数を提案します。
ビデオ フレームをキーフレームとして特徴付ける方法は、動きが 2D 空間で発生するか 3D 空間で発生するかによって異なります。
具体的には、3D モーションの場合、ターゲットの軌道の曲率とねじれの調和平均の最大値を探します。
平面運動の場合、軌道の曲率の最大値を求めます。
提案された 3D 特徴は、(1) グラウンドトゥルースのキーフレーム注釈を使用した客観的な尺度、(2) 人間ベースの理解度の評価、および (3) 光沢分類に関して手話ビデオのアプリケーションで実験的に評価され、得られた結果は有望です。
。
要約(オリジナル)
An interesting problem in many video-based applications is the generation of short synopses by selecting the most informative frames, a procedure which is known as video summarization. For sign language videos the benefits of using the $t$-parameterized counterpart of the curvature of the 2-D signer’s wrist trajectory to identify keyframes, have been recently reported in the literature. In this paper we extend these ideas by modeling the 3-D hand motion that is extracted from each frame of the video. To this end we propose a new informative function based on the $t$-parameterized curvature and torsion of the 3-D trajectory. The method to characterize video frames as keyframes depends on whether the motion occurs in 2-D or 3-D space. Specifically, in the case of 3-D motion we look for the maxima of the harmonic mean of the curvature and torsion of the target’s trajectory; in the planar motion case we seek for the maxima of the trajectory’s curvature. The proposed 3-D feature is experimentally evaluated in applications of sign language videos on (1) objective measures using ground-truth keyframe annotations, (2) human-based evaluation of understanding, and (3) gloss classification and the results obtained are promising.
arxiv情報
著者 | Evangelos G. Sartinas,Emmanouil Z. Psarakis,Dimitrios I. Kosmopoulos |
発行日 | 2023-05-26 10:30:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google