Poze: Sports Technique Feedback under Data Constraints

要約

スポーツの技術を向上させるには専門家のコーチングへのアクセスが不可欠ですが、経済的障壁により多くの愛好家にとってそれは手の届かないものとなっています。
このギャップを埋めるために、プロのコーチの洞察をエミュレートして人間の動きに関するフィードバックを提供する革新的なビデオ処理フレームワークである Poze を紹介します。
Poze は姿勢推定とシーケンス比較を組み合わせ、最小限のデータで効果的に機能するように最適化されています。
Poze は、ビデオ質問応答フレームワークにおける最先端のビジョン言語モデルを上回り、GPT4V および LLaVAv1.6 7b と比較して、それぞれ 70% および 196% の精度向上を達成しました。

要約(オリジナル)

Access to expert coaching is essential for developing technique in sports, yet economic barriers often place it out of reach for many enthusiasts. To bridge this gap, we introduce Poze, an innovative video processing framework that provides feedback on human motion, emulating the insights of a professional coach. Poze combines pose estimation with sequence comparison and is optimized to function effectively with minimal data. Poze surpasses state-of-the-art vision-language models in video question-answering frameworks, achieving 70% and 196% increase in accuracy over GPT4V and LLaVAv1.6 7b, respectively.

arxiv情報

著者 Agamdeep Singh,Sujit PB,Mayank Vatsa
発行日 2024-11-08 17:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク