From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding



– 行動理解は重要であり、注目を集めている
– これは、行動の物理空間から意味空間へのマッピングとして形成されることができる
– これまで、研究者はそれぞれ異なる選択肢に従って行動データセットを構築し、それぞれに特徴的なクラスを定義して、ベンチマークの限界を押し上げてきた
– そのため、データセットは、意味的なギャップや、さまざまなクラスの粒度など、孤立した島のように互換性がない
– より原理的な意味空間が必要であり、コミュニティの努力を集中させ、汎用的な行動学習を追求するために、これらのデータセットをすべて利用できるようにする必要があると主張する
– このため、我々は、動詞税・階層をもとにし、広範囲の行動をカバーするポアンカレ行動意味空間を設計した。また、既存のデータセットのクラスを私たちの意味空間に対応させることで、画像/ビデオ/スケルトン/MoCapデータを統一されたラベルシステムで統合したデータベースに収集し、孤立した島を「パンゲア」につなぐことができるようにした
– その結果、物理空間と意味空間の間に双方向マッピングモデルを提案し、パンゲアを完全に活用する
– 広範な実験により、私たちのシステムは、特に転移学習において著しい優位性を示す
– コードとデータは公開される予定である


Action understanding matters and attracts attention. It can be formed as the mapping from the action physical space to the semantic space. Typically, researchers built action datasets according to idiosyncratic choices to define classes and push the envelope of benchmarks respectively. Thus, datasets are incompatible with each other like ‘Isolated Islands’ due to semantic gaps and various class granularities, e.g., do housework in dataset A and wash plate in dataset B. We argue that a more principled semantic space is an urgent need to concentrate the community efforts and enable us to use all datasets together to pursue generalizable action learning. To this end, we design a Poincare action semantic space given verb taxonomy hierarchy and covering massive actions. By aligning the classes of previous datasets to our semantic space, we gather (image/video/skeleton/MoCap) datasets into a unified database in a unified label system, i.e., bridging ‘isolated islands’ into a ‘Pangea’. Accordingly, we propose a bidirectional mapping model between physical and semantic space to fully use Pangea. In extensive experiments, our system shows significant superiority, especially in transfer learning. Code and data will be made publicly available.


著者 Yong-Lu Li,Xiaoqian Wu,Xinpeng Liu,Yiming Dou,Yikun Ji,Junyi Zhang,Yixing Li,Jingru Tan,Xudong Lu,Cewu Lu
発行日 2023-04-04 09:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク