SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

要約

複雑な活動における人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングのアプリケーションの困難な問題です。
この作業では、エゴセントリックビデオおよびエキソセントリックビデオからの統一されたマルチビュー習熟度推定のパラメーター効率の高いアーキテクチャであるスキルフォーマーを提示します。
Timesformer Backboneに基づいて、Skillformerは、マルチヘッドクロスアテナテンション、学習可能なゲーティング、および適応性のあるセルフキャリブレーションを使用して、ビュー固有の機能を融合するCrossviewFusionモジュールを導入します。
低ランクの適応を活用して、パラメーターの小さなサブセットのみを微調整し、トレーニングコストを大幅に削減します。
実際、eGoExo4Dデータセットで評価されると、スキルフォーマーはマルチビュー設定で最先端の精度を達成しながら、4.5倍のパラメーターを使用して3.75倍少ないトレーニングエポックを使用して、顕著な計算効率を実証します。
それは複数の構造化されたタスクに優れており、きめ細かいスキル評価のためのマルチビュー統合の価値を確認します。

要約(オリジナル)

Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

arxiv情報

著者 Edoardo Bianchi,Antonio Liotta
発行日 2025-06-13 12:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation はコメントを受け付けていません

PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

要約

自動化されたスポーツスキル評価には、専門家を初心者のパフォーマンスと区別する基本的な動きのパターンをキャプチャする必要がありますが、現在のビデオサンプリング方法は、習熟度評価に不可欠な時間的連続性を破壊します。
この目的のために、マルチビュースキル評価のために連続時間セグメント内の完全な基本的な動きを保持する新しいサンプリング戦略である、習熟度を意識する時間サンプリング(PATS)を紹介します。
PATはビデオビデオを適応的にセグメント化して、分析された各部分に重要なパフォーマンスコンポーネントの完全な実行を含むようにし、複数のセグメントでこのプロセスを繰り返して、時間的一貫性を維持しながら情報カバレッジを最大化します。
Skillformerを使用してEgoExo4Dベンチマークで評価され、PATはすべての視聴構成( +0.65%〜 +3.05%)にわたって最先端の精度を上回り、挑戦的なドメイン( +26.22%のボルダリング、 +2.39%音楽、 +1.13%のバスケットボール)の大幅な利益をもたらします。
体系的な分析により、PATは、実際のアプリケーションの自動化スキル評価を進めるための時間的サンプリングへの適応アプローチとしての効果を順番に微妙なスキルのためのダイナミックスポーツの高頻度サンプリングから微細なスキルのセグメンテーションまで、多様なアクティビティ特性にうまく適応することが明らかになりました。

要約(オリジナル)

Automated sports skill assessment requires capturing fundamental movement patterns that distinguish expert from novice performance, yet current video sampling methods disrupt the temporal continuity essential for proficiency evaluation. To this end, we introduce Proficiency-Aware Temporal Sampling (PATS), a novel sampling strategy that preserves complete fundamental movements within continuous temporal segments for multi-view skill assessment. PATS adaptively segments videos to ensure each analyzed portion contains full execution of critical performance components, repeating this process across multiple segments to maximize information coverage while maintaining temporal coherence. Evaluated on the EgoExo4D benchmark with SkillFormer, PATS surpasses the state-of-the-art accuracy across all viewing configurations (+0.65% to +3.05%) and delivers substantial gains in challenging domains (+26.22% bouldering, +2.39% music, +1.13% basketball). Systematic analysis reveals that PATS successfully adapts to diverse activity characteristics-from high-frequency sampling for dynamic sports to fine-grained segmentation for sequential skills-demonstrating its effectiveness as an adaptive approach to temporal sampling that advances automated skill assessment for real-world applications.

arxiv情報

著者 Edoardo Bianchi,Antonio Liotta
発行日 2025-06-13 12:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment はコメントを受け付けていません

Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model

要約

このペーパーでは、2つの主要な目的について説明します。
第一に、マルチイメージの推論、ドキュメント、知識ベースの理解、インタラクティブマルチモーダルコミュニケーションの3つの異なるタスクにわたる22のデータセットで、Llava-next-interleaveの印象的なパフォーマンスを実証します。
第二に、LLAVA-Next-InterLeaveに高密度のチャネル統合(DCI)コネクタを追加し、そのパフォーマンスを標準モデルと比較します。
標準モデルは、Vision、NLVR2、Fashion200Kなどのビジョンが多いタスクに優れており、全体的な精度が最も高いことがわかります。
一方、DCI-Enhancedバージョンは、MIT-States_PropertyCoherenceやSlideVQAなど、より深いセマンティックコヒーレンスまたは構造化された変更理解を必要とするデータセットの特定の強度を示しています。
私たちの結果は、強力な基礎モデルをインターリーブタスクのプラグアンドプレイ技術と組み合わせる可能性を強調しています。
このコードは、https://github.com/dinhvietcuong1996/icme25-inovaで入手できます。

要約(オリジナル)

This paper addresses two main objectives. Firstly, we demonstrate the impressive performance of the LLaVA-NeXT-interleave on 22 datasets across three different tasks: Multi-Image Reasoning, Documents and Knowledge-Based Understanding and Interactive Multi-Modal Communication. Secondly, we add the Dense Channel Integration (DCI) connector to the LLaVA-NeXT-Interleave and compare its performance against the standard model. We find that the standard model achieves the highest overall accuracy, excelling in vision-heavy tasks like VISION, NLVR2, and Fashion200K. Meanwhile, the DCI-enhanced version shows particular strength on datasets requiring deeper semantic coherence or structured change understanding such as MIT-States_PropertyCoherence and SlideVQA. Our results highlight the potential of combining powerful foundation models with plug-and-play techniques for Interleave tasks. The code is available at https://github.com/dinhvietcuong1996/icme25-inova.

arxiv情報

著者 Dinh Viet Cuong,Hoang-Bao Le,An Pham Ngoc Nguyen,Liting Zhou,Cathal Gurrin
発行日 2025-06-13 12:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM | Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model はコメントを受け付けていません

AgriPotential: A Novel Multi-Spectral and Multi-Temporal Remote Sensing Dataset for Agricultural Potentials

要約

リモートセンシングは、大規模な地球監視と土地管理のための重要なツールとして登場しました。
この論文では、数か月にわたるSentinel-2衛星画像で構成される新しいベンチマークデータセットであるAgripotentialを紹介します。
このデータセットは、5つの順序クラスにわたって、ブドウ栽培、市場ガーデニング、畑作物の3つの主要な作物タイプの農業ポテンシャルのピクセルレベルの注釈を提供します。
Agripotentialは、序数の回帰、マルチラベル分類、時空モデリングなど、幅広い機械学習タスクをサポートしています。
データは、フランス南部の多様な地域をカバーし、豊富なスペクトル情報を提供しています。
Agripotentialは、持続可能な土地利用計画に対するデータ駆動型のアプローチを改善することを目的とした、農業潜在的な予測のために特別に設計された最初の公開データセットです。
データセットとコードは、https://zenodo.org/records/15556484で無料でアクセスできます。

要約(オリジナル)

Remote sensing has emerged as a critical tool for large-scale Earth monitoring and land management. In this paper, we introduce AgriPotential, a novel benchmark dataset composed of Sentinel-2 satellite imagery spanning multiple months. The dataset provides pixel-level annotations of agricultural potentials for three major crop types – viticulture, market gardening, and field crops – across five ordinal classes. AgriPotential supports a broad range of machine learning tasks, including ordinal regression, multi-label classification, and spatio-temporal modeling. The data covers diverse areas in Southern France, offering rich spectral information. AgriPotential is the first public dataset designed specifically for agricultural potential prediction, aiming to improve data-driven approaches to sustainable land use planning. The dataset and the code are freely accessible at: https://zenodo.org/records/15556484

arxiv情報

著者 Mohammad El Sakka,Caroline De Pourtales,Lotfi Chaari,Josiane Mothe
発行日 2025-06-13 12:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AgriPotential: A Novel Multi-Spectral and Multi-Temporal Remote Sensing Dataset for Agricultural Potentials はコメントを受け付けていません

Exploring the Effectiveness of Deep Features from Domain-Specific Foundation Models in Retinal Image Synthesis

要約

医療イメージングにおけるニューラルネットワークモデルの採用は、厳格なプライバシー規制、限られたデータの可用性、高い獲得コスト、および人口統計学的バイアスによって制約されています。
ディープ生成モデルは、プライバシーの懸念をバイパスし、過小評価されているグループ向けのサンプルを生成することにより公平性に対処する合成データを生成することにより、有望なソリューションを提供します。
ただし、自然な画像とは異なり、医療画像には忠実度(例:fre \ ‘echetインセプションスコア)だけでなく、形態学的および臨床的精度についても検証が必要です。
これは、容器トポロジー、連続性、厚さなど、網膜血管ネットワークの正確な複製が必要な色の網膜イメージングに特に当てはまります。
この研究では、ドメインデータの大規模なコーパスであるColor Fundus Imagingで訓練された大きな基礎モデルの深い活性化層に基づく距離ベースの損失関数が、知覚的損失とエッジ検出ベースの損失関数よりも利点を提供するかどうかを調査しました。
ドメインフリーとドメイン固有のタスクの両方に基づいた当社の広範な検証パイプラインは、ドメイン固有の深い特徴がAutoen-Coder画像の生成を改善しないことを示唆しています。
逆に、我々の発見は、合成サンプルの血管構造の鋭さを改善する際の概念的エッジ検出フィルターの有効性を強調しています。

要約(オリジナル)

The adoption of neural network models in medical imaging has been constrained by strict privacy regulations, limited data availability, high acquisition costs, and demographic biases. Deep generative models offer a promising solution by generating synthetic data that bypasses privacy concerns and addresses fairness by producing samples for under-represented groups. However, unlike natural images, medical imaging requires validation not only for fidelity (e.g., Fr\’echet Inception Score) but also for morphological and clinical accuracy. This is particularly true for colour fundus retinal imaging, which requires precise replication of the retinal vascular network, including vessel topology, continuity, and thickness. In this study, we in-vestigated whether a distance-based loss function based on deep activation layers of a large foundational model trained on large corpus of domain data, colour fundus imaging, offers advantages over a perceptual loss and edge-detection based loss functions. Our extensive validation pipeline, based on both domain-free and domain specific tasks, suggests that domain-specific deep features do not improve autoen-coder image generation. Conversely, our findings highlight the effectiveness of con-ventional edge detection filters in improving the sharpness of vascular structures in synthetic samples.

arxiv情報

著者 Zuzanna Skorniewska,Bartlomiej W. Papiez
発行日 2025-06-13 13:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Exploring the Effectiveness of Deep Features from Domain-Specific Foundation Models in Retinal Image Synthesis はコメントを受け付けていません

DiffFuSR: Super-Resolution of all Sentinel-2 Multispectral Bands using Diffusion Models

要約

このホワイトペーパーでは、Sentinel-2レベル-2A画像の12個すべてのスペクトルバンドを2.5メートルの統一グランドサンプリング距離(GSD)に超分解するためのモジュラーパイプラインであるDifffusrを示します。
パイプラインは2つの段階で構成されています。(i)NAIPおよびWorldStratデータセットの高解像度RGB画像で訓練された拡散ベースの超解像度(SR)モデルは、Sentinel-2特性をシミュレートするために調和します。
(ii)スーパー分解されたRGBイメージを空間事前として使用して、残りのマルチスペクトルバンドをアップスケールする学習した融合ネットワーク。
ブラインドSRをサポートするために、堅牢な分解モデルと対照的分解エンコーダーを導入します。
OpenSRベンチマーク上の提案されたSRパイプラインの広範な評価は、提案された方法が反射率の忠実度、スペクトルの一貫性、空間アライメント、および幻覚抑制の観点から現在のSOTAベースラインよりも優れていることを示しています。
さらに、Fusionネットワークは、古典的なパンシャープニングアプローチを大幅に上回り、Sentinel-2の20 mおよび60 mのバンドを正確に強化できるようにします。
この研究では、センチネル-2 srのモジュールフレームワークを作成するための生成的前fiousと融合戦略を使用した調和した学習の力を強調しています。
私たちのコードとモデルは、https://github.com/norskregnesentral/difffusrにあります。

要約(オリジナル)

This paper presents DiffFuSR, a modular pipeline for super-resolving all 12 spectral bands of Sentinel-2 Level-2A imagery to a unified ground sampling distance (GSD) of 2.5 meters. The pipeline comprises two stages: (i) a diffusion-based super-resolution (SR) model trained on high-resolution RGB imagery from the NAIP and WorldStrat datasets, harmonized to simulate Sentinel-2 characteristics; and (ii) a learned fusion network that upscales the remaining multispectral bands using the super-resolved RGB image as a spatial prior. We introduce a robust degradation model and contrastive degradation encoder to support blind SR. Extensive evaluations of the proposed SR pipeline on the OpenSR benchmark demonstrate that the proposed method outperforms current SOTA baselines in terms of reflectance fidelity, spectral consistency, spatial alignment, and hallucination suppression. Furthermore, the fusion network significantly outperforms classical pansharpening approaches, enabling accurate enhancement of Sentinel-2’s 20 m and 60 m bands. This study underscores the power of harmonized learning with generative priors and fusion strategies to create a modular framework for Sentinel-2 SR. Our code and models can be found at https://github.com/NorskRegnesentral/DiffFuSR.

arxiv情報

著者 Muhammad Sarmad,Arnt-Børre Salberg,Michael Kampffmeyer
発行日 2025-06-13 13:18:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | DiffFuSR: Super-Resolution of all Sentinel-2 Multispectral Bands using Diffusion Models はコメントを受け付けていません

MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution

要約

ビデオスーパー解像度(VSR)は、計算効率を維持しながら、不整合フレーム全体で非ローカルな依存関係を効果的にモデル化する上で重要な課題に直面しています。
既存のVSRメソッドは通常、光学フロー戦略またはトランスアーキテクチャに依存しており、これは大きな動きの変位と長いビデオシーケンスに苦労しています。
これに対処するために、革新的なコンテンツ認識スキャンメカニズムを組み込んだVSRの最初の状態空間モデルフレームワークであるMambavsrを提案します。
従来のビジョンMAMBAメソッドの剛性1Dシーケンシャル処理とは異なり、Mambavsrは、共有コンパス構造(SCC)とコンテンツを意識した連続化(CAS)を通じて動的空間的相互作用を可能にします。
具体的には、SCCモジュールは、効率的なまばらな注意を介してフレーム内セマンティック接続グラフを構築し、スペクトルクラスタリングを介して適応的な空間スキャンシーケンスを生成します。
SCCに基づいて、CASモジュールは、学習した空間的順序に沿って時間的特徴をインターリーブすることにより、複数のフレームにわたって非ローカルな類似のコンテンツを効果的に整列させ、集約します。
グローバルな依存関係をローカルの詳細で橋渡しするために、グローバルローカルステートスペースブロック(GLSSB)は、ウィンドウの自己関節操作をSSMベースの機能伝播と相乗的に統合し、グローバル依存性ガイダンスの下で高周波の詳細回復を可能にします。
広範な実験は、Mambavsrの優位性を検証し、55%少ないパラメーターでRedsデータセットでトランスベースの方法を0.58 dB PSNRよりも優れています。

要約(オリジナル)

Video super-resolution (VSR) faces critical challenges in effectively modeling non-local dependencies across misaligned frames while preserving computational efficiency. Existing VSR methods typically rely on optical flow strategies or transformer architectures, which struggle with large motion displacements and long video sequences. To address this, we propose MambaVSR, the first state-space model framework for VSR that incorporates an innovative content-aware scanning mechanism. Unlike rigid 1D sequential processing in conventional vision Mamba methods, our MambaVSR enables dynamic spatiotemporal interactions through the Shared Compass Construction (SCC) and the Content-Aware Sequentialization (CAS). Specifically, the SCC module constructs intra-frame semantic connectivity graphs via efficient sparse attention and generates adaptive spatial scanning sequences through spectral clustering. Building upon SCC, the CAS module effectively aligns and aggregates non-local similar content across multiple frames by interleaving temporal features along the learned spatial order. To bridge global dependencies with local details, the Global-Local State Space Block (GLSSB) synergistically integrates window self-attention operations with SSM-based feature propagation, enabling high-frequency detail recovery under global dependency guidance. Extensive experiments validate MambaVSR’s superiority, outperforming the Transformer-based method by 0.58 dB PSNR on the REDS dataset with 55% fewer parameters.

arxiv情報

著者 Linfeng He,Meiqin Liu,Qi Tang,Chao Yao,Yao Zhao
発行日 2025-06-13 13:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution はコメントを受け付けていません

CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection

要約

異常検出は、異常の定義、異常タイプの多様性(局所的および世界的な欠陥など)、およびトレーニングデータの希少性の曖昧さのために、複雑な問題です。
そのため、データが限られていても、低レベルと高レベルの機能の両方をキャプチャできる包括的なモデルが必要です。
これに対処するために、識別と生成の基礎モデルの両方を活用する方法であるClipFusionを提案します。
具体的には、クリップベースの識別モデルはグローバルな機能のキャプチャに優れていますが、拡散ベースの生成モデルはローカルの詳細を効果的にキャプチャし、相乗的で補完的なアプローチを作成します。
特に、異常検出のために特に拡散モデルから抽出されたクロスアテンションマップと機能マップを使用するための方法論を紹介します。
ベンチマークデータセット(MVTEC-AD、Visa)の実験結果は、ClipFusionがベースラインメソッドを一貫して上回り、異常なセグメンテーションと分類の両方で優れたパフォーマンスを達成することを示しています。
私たちの方法は、異常検出の多面的な課題に取り組む際のマルチモーダルおよびマルチモデル融合の有効性を強調し、実際のアプリケーションにスケーラブルなソリューションを提供すると考えています。

要約(オリジナル)

Anomaly detection is a complex problem due to the ambiguity in defining anomalies, the diversity of anomaly types (e.g., local and global defect), and the scarcity of training data. As such, it necessitates a comprehensive model capable of capturing both low-level and high-level features, even with limited data. To address this, we propose CLIPFUSION, a method that leverages both discriminative and generative foundation models. Specifically, the CLIP-based discriminative model excels at capturing global features, while the diffusion-based generative model effectively captures local details, creating a synergistic and complementary approach. Notably, we introduce a methodology for utilizing cross-attention maps and feature maps extracted from diffusion models specifically for anomaly detection. Experimental results on benchmark datasets (MVTec-AD, VisA) demonstrate that CLIPFUSION consistently outperforms baseline methods, achieving outstanding performance in both anomaly segmentation and classification. We believe that our method underscores the effectiveness of multi-modal and multi-model fusion in tackling the multifaceted challenges of anomaly detection, providing a scalable solution for real-world applications.

arxiv情報

著者 Byeongchan Lee,John Won,Seunghyun Lee,Jinwoo Shin
発行日 2025-06-13 13:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection はコメントを受け付けていません

AgentSense: Virtual Sensor Data Generation Using LLM Agent in Simulated Home Environments

要約

堅牢で一般化可能なスマートホームベースのヒューマンアクティビティ認識(HAR)システムの開発における主要な障害は、大規模で多様なラベル付きデータセットがないことです。
個人がさまざまなルーチンに従い、異なる方法でアクティビティを実行するため、ホームレイアウト、センサーの構成、およびユーザーの動作の変動性がさらに複雑になります。
よく一般化するHARシステムの構築には、ユーザーと環境全体の多様性をキャプチャするトレーニングデータが必要です。
これらの課題に対処するために、大規模な言語モデルを活用することで多様なペルソナが生成される仮想データ生成パイプラインであるAgentsenseを紹介します。
これらのペルソナは、毎日のルーチンを作成するために使用され、その後、低レベルのアクションシーケンスに分解されます。
その後、アクションは、VirtualHomeと呼ばれるシミュレートされたホーム環境で実行され、エージェントアクティビティが展開されるときに記録できる仮想アンビエントセンサーで拡張しました。
全体として、Agentsenseは、幅広いユーザーとホーム設定を表すリッチで仮想センサーデータセットの生成を可能にします。
5つのベンチマークHARデータセットで、仮想センサーデータを活用すると、特に実際のデータが制限されている場合、パフォーマンスが大幅に向上することが示されています。
特に、仮想データとほんの数日間の実際のデータの組み合わせでトレーニングされたモデルは、実際のデータセット全体でトレーニングされたものに匹敵するパフォーマンスを実現します。
これらの結果は、マニュアルデータ収集の取り組みを必要とせずに大規模で注釈付きのデータセットの明確な欠如である、周囲のセンシングにおける最も差し迫った課題の1つに対処する仮想データの可能性を実証および証明しています。

要約(オリジナル)

A major obstacle in developing robust and generalizable smart home-based Human Activity Recognition (HAR) systems is the lack of large-scale, diverse labeled datasets. Variability in home layouts, sensor configurations, and user behavior adds further complexity, as individuals follow varied routines and perform activities in distinct ways. Building HAR systems that generalize well requires training data that captures the diversity across users and environments. To address these challenges, we introduce AgentSense, a virtual data generation pipeline where diverse personas are generated by leveraging Large Language Models. These personas are used to create daily routines, which are then decomposed into low-level action sequences. Subsequently, the actions are executed in a simulated home environment called VirtualHome that we extended with virtual ambient sensors capable of recording the agents activities as they unfold. Overall, AgentSense enables the generation of rich, virtual sensor datasets that represent a wide range of users and home settings. Across five benchmark HAR datasets, we show that leveraging our virtual sensor data substantially improves performance, particularly when real data are limited. Notably, models trained on a combination of virtual data and just a few days of real data achieve performance comparable to those trained on the entire real datasets. These results demonstrate and prove the potential of virtual data to address one of the most pressing challenges in ambient sensing, which is the distinct lack of large-scale, annotated datasets without requiring any manual data collection efforts.

arxiv情報

著者 Zikang Leng,Megha Thukral,Yaqi Liu,Hrudhai Rajasekhar,Shruthi K. Hiremath,Thomas Plötz
発行日 2025-06-13 13:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | AgentSense: Virtual Sensor Data Generation Using LLM Agent in Simulated Home Environments はコメントを受け付けていません

Real-Time Feedback and Benchmark Dataset for Isometric Pose Evaluation

要約

等尺性運動は、利便性、プライバシー、および機器への最小限の依存を求めている個人にアピールします。
ただし、このようなフィットネストレーニングは、多くの場合、専門家の監督ではなく信頼できないデジタルメディアコンテンツに依存していることが多く、矯正フィードバックの欠如による誤った姿勢、怪我、解放など、深刻なリスクを導入します。
これらの課題に対処するために、等尺性ポーズを評価するためのリアルタイムフィードバックシステムを提示します。
私たちの貢献には、これまでで最大のマルチクラス等尺性エクササイズビデオデータセットのリリースが含まれます。これは、正しいバリエーションで6つのポーズにわたって3,600を超えるクリップを含むものです。
堅牢な評価をサポートするために、このデータセットにグラフベースのネットワークを含む最先端のモデルモデルをベンチマークし、分類の精度、間違いのローカリゼーション、モデルの信頼をキャプチャする新しい3部構成のメトリックを導入します。
私たちの結果は、在宅ワークアウトのためのインテリジェントでパーソナライズされた運動トレーニングシステムの実現可能性を高めます。
ユーザーに直接提供されるこの専門家レベルの診断は、これらのシステムの潜在的なアプリケーションをリハビリテーション、理学療法、および物理的な動きを含む他のさまざまなフィットネス分野にも拡大します。

要約(オリジナル)

Isometric exercises appeal to individuals seeking convenience, privacy, and minimal dependence on equipments. However, such fitness training is often overdependent on unreliable digital media content instead of expert supervision, introducing serious risks, including incorrect posture, injury, and disengagement due to lack of corrective feedback. To address these challenges, we present a real-time feedback system for assessing isometric poses. Our contributions include the release of the largest multiclass isometric exercise video dataset to date, comprising over 3,600 clips across six poses with correct and incorrect variations. To support robust evaluation, we benchmark state-of-the-art models-including graph-based networks-on this dataset and introduce a novel three-part metric that captures classification accuracy, mistake localization, and model confidence. Our results enhance the feasibility of intelligent and personalized exercise training systems for home workouts. This expert-level diagnosis, delivered directly to the users, also expands the potential applications of these systems to rehabilitation, physiotherapy, and various other fitness disciplines that involve physical motion.

arxiv情報

著者 Abhishek Jaiswal,Armeet Singh Luthra,Purav Jangir,Bhavya Garg,Nisheeth Srivastava
発行日 2025-06-13 13:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Real-Time Feedback and Benchmark Dataset for Isometric Pose Evaluation はコメントを受け付けていません