UniPose: Detecting Any Keypoints

要約

この研究では、視覚またはテキストによるプロンプトを介して、関節のある物体 (人間や動物など)、硬い物体、および柔らかい物体のキーポイントを検出して、視覚のきめ細かい理解と操作を可能にする、UniPose と呼ばれる統一フレームワークを提案しています。
Keypoint は、あらゆるオブジェクト、特に多関節オブジェクトの構造を認識したピクセルレベルのコンパクトな表現です。
既存のきめの細かいプロンプト可能なタスクは、主にオブジェクト インスタンスの検出とセグメンテーションに焦点を当てていますが、目、脚、足などの画像とインスタンスのきめの細かい粒度と構造化情報を識別できないことがよくあります。一方、プロンプトベースのキーポイント検出は依然として
探求が不十分です。
このギャップを埋めるために、私たちは、あらゆるオブジェクトのキーポイントを検出するために、UniPose と呼ばれるエンドツーエンドのプロンプトベースのキーポイント検出フレームワークの開発を初めて試みました。
キーポイント検出タスクはこのフレームワークで統合されているため、400,000 インスタンスにわたる 1,237 カテゴリにわたる 338 のキーポイントを含む 13 のキーポイント検出データセットを活用して、汎用キーポイント検出モデルをトレーニングできます。
UniPose は、クロスモダリティの対比学習最適化目標に基づいてテキストとビジュアルのプロンプトを相互に強化するため、テキストとキーポイント、および画像とキーポイントを効果的に位置合わせできます。
私たちの実験結果は、UniPose が画像スタイル、カテゴリ、ポーズ全体にわたって強力できめ細かい位置特定および一般化能力を備えていることを示しています。
汎用的なキーポイント検出器としての UniPose に基づいて、これがきめ細かい視覚認識、理解、生成に役立つことを期待しています。

要約(オリジナル)

This work proposes a unified framework called UniPose to detect keypoints of any articulated (e.g., human and animal), rigid, and soft objects via visual or textual prompts for fine-grained vision understanding and manipulation. Keypoint is a structure-aware, pixel-level, and compact representation of any object, especially articulated objects. Existing fine-grained promptable tasks mainly focus on object instance detection and segmentation but often fail to identify fine-grained granularity and structured information of image and instance, such as eyes, leg, paw, etc. Meanwhile, prompt-based keypoint detection is still under-explored. To bridge the gap, we make the first attempt to develop an end-to-end prompt-based keypoint detection framework called UniPose to detect keypoints of any objects. As keypoint detection tasks are unified in this framework, we can leverage 13 keypoint detection datasets with 338 keypoints across 1,237 categories over 400K instances to train a generic keypoint detection model. UniPose can effectively align text-to-keypoint and image-to-keypoint due to the mutual enhancement of textual and visual prompts based on the cross-modality contrastive learning optimization objectives. Our experimental results show that UniPose has strong fine-grained localization and generalization abilities across image styles, categories, and poses. Based on UniPose as a generalist keypoint detector, we hope it could serve fine-grained visual perception, understanding, and generation.

arxiv情報

著者 Jie Yang,Ailing Zeng,Ruimao Zhang,Lei Zhang
発行日 2023-10-12 17:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク