HAKE: A Knowledge Engine Foundation for Human Activity Understanding

要約

人間の活動の理解は人工知能において広く関心を集めており、ヘルスケアや行動分析などのさまざまな用途に広がっています。
ディープラーニングは進歩していますが、依然として課題が残っています。
オブジェクト認識に似たソリューションは通常、ピクセルをセマンティクスに直接マッピングしようとしますが、アクティビティのパターンはオブジェクトのパターンとは大きく異なるため、成功の妨げとなります。
この研究では、このタスクを 2 段階で再定式化する新しいパラダイムを提案します。最初にピクセルを原子アクティビティ プリミティブが広がる中間空間にマッピングし、次に解釈可能な論理ルールを使用して検出されたプリミティブをプログラミングしてセマンティクスを推論します。
代表的なプリミティブ空間を提供するために、人間の事前経験または自動発見からの 26M 以上のプリミティブ ラベルと論理ルールを含む知識ベースを構築します。
私たちのフレームワークであるヒューマン アクティビティ ナレッジ エンジン (HAKE) は、困難なベンチマークに対する標準的な手法で優れた一般化能力とパフォーマンスを示します。
コードとデータは http://hake-mvig.cn/ で入手できます。

要約(オリジナル)

Human activity understanding is of widespread interest in artificial intelligence and spans diverse applications like health care and behavior analysis. Although there have been advances in deep learning, it remains challenging. The object recognition-like solutions usually try to map pixels to semantics directly, but activity patterns are much different from object patterns, thus hindering success. In this work, we propose a novel paradigm to reformulate this task in two stages: first mapping pixels to an intermediate space spanned by atomic activity primitives, then programming detected primitives with interpretable logic rules to infer semantics. To afford a representative primitive space, we build a knowledge base including 26+ M primitive labels and logic rules from human priors or automatic discovering. Our framework, the Human Activity Knowledge Engine (HAKE), exhibits superior generalization ability and performance upon canonical methods on challenging benchmarks. Code and data are available at http://hake-mvig.cn/.

arxiv情報

著者 Yong-Lu Li,Xinpeng Liu,Xiaoqian Wu,Yizhuo Li,Zuoyu Qiu,Liang Xu,Yue Xu,Hao-Shu Fang,Cewu Lu
発行日 2023-09-15 08:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク