この技術レポートでは、自己中心的なアクション セグメンテーション タスク用の Human-Object Interaction 4D (HOI4D) データセットに対して実施された調査結果を紹介します。
比較的新しい研究分野として、点群ビデオ手法は、特に長い点群ビデオ (たとえば 150 フレーム) の場合、時間モデリングには適していない可能性があります。
時間モデリングにおけるその有効性は、多くの大規模ビデオ データセットで広く検証されています。
したがって、点群ビデオを深度ビデオに変換し、従来のビデオ モデリング手法を採用して 4D アクション セグメンテーションを改善します。
深度および点群ビデオ エキスパートの混合 (DPMix) と名付けられた提案手法は、HOI4D Challenge 2023 の 4D アクション セグメンテーション トラックで 1 位を獲得しました。
In this technical report, we present our findings from the research conducted on the Human-Object Interaction 4D (HOI4D) dataset for egocentric action segmentation task. As a relatively novel research area, point cloud video methods might not be good at temporal modeling, especially for long point cloud videos (\eg, 150 frames). In contrast, traditional video understanding methods have been well developed. Their effectiveness on temporal modeling has been widely verified on many large scale video datasets. Therefore, we convert point cloud videos into depth videos and employ traditional video modeling methods to improve 4D action segmentation. By ensembling depth and point cloud video methods, the accuracy is significantly improved. The proposed method, named Mixture of Depth and Point cloud video experts (DPMix), achieved the first place in the 4D Action Segmentation Track of the HOI4D Challenge 2023.
著者 | Yue Zhang,Hehe Fan,Yi Yang,Mohan Kankanhalli |
発行日 | 2023-07-31 16:14:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google