Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning

要約

インコンテキスト学習は、ビジョンと NLP のマルチタスク モデリングに新しい視点を提供します。
この設定では、モデルはプロンプトからタスクを認識し、追加のタスク固有のヘッド予測やモデルの微調整を行わずにタスクを実行できます。
ただし、コンテキスト内学習によるスケルトン シーケンス モデリングは未開発のままです。
他の領域の既存のインコンテキスト モデルをスケルトン シーケンスに直接適用することは、フレーム間およびタスク間のポーズの類似性により失敗し、微妙なコンテキストからタスクを正しく認識することが著しく困難になります。
この課題に対処するために、インコンテキスト スケルトン シーケンス モデリングの効果的なフレームワークであるスケルトン イン コンテキスト (SiC) を提案します。
当社の SiC は、単一のトレーニング プロセス後に複数のスケルトン ベースのタスクを同時に処理し、指定されたプロンプトに従ってコンテキストから各タスクを実行できます。
カスタマイズされたプロンプトに従って、新しい目に見えないタスクにさらに一般化できます。
コンテキストの認識を容易にするために、部分的なジョイントレベルの生成、シーケンスレベルの予測、2D から 3D への動き予測など、さまざまな性質のタスクを適応的に学習するタスク統合プロンプトをさらに提案します。
当社では、動作予測、姿勢推定、関節完了、将来の姿勢推定などの複数のタスクに対する SiC の有効性を評価するために広範な実験を行っています。
また、間の動きなどの目に見えないタスクにおける一般化機能も評価します。
これらの実験は、私たちのモデルが最先端のマルチタスク パフォーマンスを達成し、特定のタスクではシングルタスク手法を上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

In-context learning provides a new perspective for multi-task modeling for vision and NLP. Under this setting, the model can perceive tasks from prompts and accomplish them without any extra task-specific head predictions or model fine-tuning. However, Skeleton sequence modeling via in-context learning remains unexplored. Directly applying existing in-context models from other areas onto skeleton sequences fails due to the inter-frame and cross-task pose similarity that makes it outstandingly hard to perceive the task correctly from a subtle context. To address this challenge, we propose Skeleton-in-Context (SiC), an effective framework for in-context skeleton sequence modeling. Our SiC is able to handle multiple skeleton-based tasks simultaneously after a single training process and accomplish each task from context according to the given prompt. It can further generalize to new, unseen tasks according to customized prompts. To facilitate context perception, we additionally propose a task-unified prompt, which adaptively learns tasks of different natures, such as partial joint-level generation, sequence-level prediction, or 2D-to-3D motion prediction. We conduct extensive experiments to evaluate the effectiveness of our SiC on multiple tasks, including motion prediction, pose estimation, joint completion, and future pose estimation. We also evaluate its generalization capability on unseen tasks such as motion-in-between. These experiments show that our model achieves state-of-the-art multi-task performance and even outperforms single-task methods on certain tasks.

arxiv情報

著者 Xinshun Wang,Zhongbin Fang,Xia Li,Xiangtai Li,Chen Chen,Mengyuan Liu
発行日 2023-12-06 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク