Beyond Pixels: Leveraging the Language of Soccer to Improve Spatio-Temporal Action Detection in Broadcast Videos

要約

最先端の空間的アクション検出(STAD)メソッドは、放送ビデオからサッカーイベントを抽出するための有望な結果を示しています。
ただし、サッカー分析での徹底的なイベントカバレッジに必要な高度な低精度体制で操作されると、コンテキストの理解の欠如が明らかになります。
この作業では、ゲームレベルで推論し、除去シーケンス変換タスクを追加することによりSTADを改善することにより、この制限に対処します。
ノイズの多いコンテキストのないプレーヤー中心の予測のシーケンスは、トランスベースのエンコーダデコーダーモデルを使用して、クリーンなゲーム状態情報とともに処理されます。
拡張された時間的コンテキストとチームレベルのダイナミクスを共同で推論することにより、私たちの方法は、「サッカーの言語」(その戦術的な規則性とプレーヤー間依存関係)を活用して、「除去された」シーケンスのアクションを生成します。
このアプローチは、低自信レジームでの精度とリコールの両方を改善し、ブロードキャストビデオからより信頼性の高いイベント抽出を可能にし、既存のピクセルベースの方法を補完します。

要約(オリジナル)

State-of-the-art spatio-temporal action detection (STAD) methods show promising results for extracting soccer events from broadcast videos. However, when operated in the high-recall, low-precision regime required for exhaustive event coverage in soccer analytics, their lack of contextual understanding becomes apparent: many false positives could be resolved by considering a broader sequence of actions and game-state information. In this work, we address this limitation by reasoning at the game level and improving STAD through the addition of a denoising sequence transduction task. Sequences of noisy, context-free player-centric predictions are processed alongside clean game state information using a Transformer-based encoder-decoder model. By modeling extended temporal context and reasoning jointly over team-level dynamics, our method leverages the ‘language of soccer’ – its tactical regularities and inter-player dependencies – to generate ‘denoised’ sequences of actions. This approach improves both precision and recall in low-confidence regimes, enabling more reliable event extraction from broadcast video and complementing existing pixel-based methods.

arxiv情報

著者 Jeremie Ochin,Raphael Chekroun,Bogdan Stanciulescu,Sotiris Manitsaris
発行日 2025-05-14 15:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Pixels: Leveraging the Language of Soccer to Improve Spatio-Temporal Action Detection in Broadcast Videos はコメントを受け付けていません

A 2D Semantic-Aware Position Encoding for Vision Transformers

要約

ビジョン変圧器は、自己関節を通じて長距離の依存関係と文脈的関係をキャプチャする能力により、コンピュータービジョンタスクの重要な利点を実証しています。
ただし、自然言語処理から主に借用されている既存の位置エンコーディング技術は、画像パッチ間のセマンティックアウェアの位置関係を効果的にキャプチャすることができません。
絶対位置エンコーディングや相対位置エンコードなどの従来のアプローチは、主に1D線形位置関係に焦点を当てており、しばしば遠方でありながら文脈に関連するパッチ間の意味的な類似性を無視します。
これらの制限は、モデルの一般化、翻訳の等語性、および画像の繰り返しまたは構造化されたパターンを効果的に処理する能力を妨げます。
この論文では、固定線形位置関係または空間座標の代わりにローカルコンテンツを活用することにより位置表現を動的に適応させるセマンティック認識を備えた新しい位置エンコード方法である2次元セマンティックアウェア位置エンコード($ \ Text {sape}^2 $)を提案します。
私たちの方法は、さまざまな画像解像度とスケール全体に一般化するモデルの能力を高め、翻訳の同等性を改善し、視覚的に類似しているが空間的に遠いパッチのためのより良い集計機能を改善します。
$ \ text {sape}^2 $をビジョントランスに統合することにより、エンコードと知覚的類似性の間のギャップを埋め、それによりコンピュータービジョンタスクのパフォーマンスが向上します。

要約(オリジナル)

Vision transformers have demonstrated significant advantages in computer vision tasks due to their ability to capture long-range dependencies and contextual relationships through self-attention. However, existing position encoding techniques, which are largely borrowed from natural language processing, fail to effectively capture semantic-aware positional relationships between image patches. Traditional approaches like absolute position encoding and relative position encoding primarily focus on 1D linear position relationship, often neglecting the semantic similarity between distant yet contextually related patches. These limitations hinder model generalization, translation equivariance, and the ability to effectively handle repetitive or structured patterns in images. In this paper, we propose 2-Dimensional Semantic-Aware Position Encoding ($\text{SaPE}^2$), a novel position encoding method with semantic awareness that dynamically adapts position representations by leveraging local content instead of fixed linear position relationship or spatial coordinates. Our method enhances the model’s ability to generalize across varying image resolutions and scales, improves translation equivariance, and better aggregates features for visually similar but spatially distant patches. By integrating $\text{SaPE}^2$ into vision transformers, we bridge the gap between position encoding and perceptual similarity, thereby improving performance on computer vision tasks.

arxiv情報

著者 Xi Chen,Shiyang Zhou,Muqi Huang,Jiaxu Feng,Yun Xiong,Kun Zhou,Biao Yang,Yuhui Zhang,Huishuai Bao,Sijia Peng,Chuan Li,Feng Shi
発行日 2025-05-14 15:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A 2D Semantic-Aware Position Encoding for Vision Transformers はコメントを受け付けていません

Denoising and Alignment: Rethinking Domain Generalization for Multimodal Face Anti-Spoofing

要約

フェイスアンチスポーフィング(FAS)は、支払い処理や監視などの多様なシナリオで顔認識システムのセキュリティに不可欠です。
現在のマルチモーダルFASメソッドは、主にモダリティ固有のバイアスとドメインシフトのために、効果的な一般化に苦労することがよくあります。
これらの課題に対処するために、\ textbf {m} ulti \ textbf {m} odal \ textbf {d} enoisingおよび\ textbf {a} lignment(\ textbf {mmda})フレームワークを紹介します。
CLIPのゼロショット一般化機能を活用することにより、MMDAフレームワークは、除去およびアライメントメカニズムを通じてマルチモーダルデータのノイズを効果的に抑制し、それによりクロスモーダルアライメントの一般化パフォーマンスを大幅に向上させます。
\ textbf {m} odality- \ textbf {d} omain Joint \ textbf {d} ifferential \ textbf {a} ttention(\ textbf {md2a})モジュールのモジュールは、一般的なメカニズムに基づくメカニズムを促進するためのドメインとモダリティノイズの影響を緩和します。
さらに、\ textbf {r} epresentation \ textbf {s} pace \ textbf {s} oft(\ textbf {rs2})アライメント戦略は、事前に訓練されたクリップモデルを利用して、マルチドメインのマルチモーダルデータを整列させ、一般的な表現スペースに柔軟な表現を促進するために、柔軟な表現を促進します。
目に見えない条件。
また、\ textbf {u} – shaped \ textbf {d} ual \ textbf {s} pace \ textbf {a} daptation(\ textbf {u-dsa})モジュールを設計し、表現の適応性を強化しながら、一般化のパフォーマンスを維持します。
これらの改善は、フレームワークの一般化能力を高めるだけでなく、複雑な表現を表現する能力を高めます。
さまざまな評価プロトコルの下での4つのベンチマークデータセットでの実験結果は、MMDAフレームワークが、クロスドメインの一般化とマルチモーダル検出精度の観点から既存の最先端の方法を上回ることを示しています。
コードはまもなくリリースされます。

要約(オリジナル)

Face Anti-Spoofing (FAS) is essential for the security of facial recognition systems in diverse scenarios such as payment processing and surveillance. Current multimodal FAS methods often struggle with effective generalization, mainly due to modality-specific biases and domain shifts. To address these challenges, we introduce the \textbf{M}ulti\textbf{m}odal \textbf{D}enoising and \textbf{A}lignment (\textbf{MMDA}) framework. By leveraging the zero-shot generalization capability of CLIP, the MMDA framework effectively suppresses noise in multimodal data through denoising and alignment mechanisms, thereby significantly enhancing the generalization performance of cross-modal alignment. The \textbf{M}odality-\textbf{D}omain Joint \textbf{D}ifferential \textbf{A}ttention (\textbf{MD2A}) module in MMDA concurrently mitigates the impacts of domain and modality noise by refining the attention mechanism based on extracted common noise features. Furthermore, the \textbf{R}epresentation \textbf{S}pace \textbf{S}oft (\textbf{RS2}) Alignment strategy utilizes the pre-trained CLIP model to align multi-domain multimodal data into a generalized representation space in a flexible manner, preserving intricate representations and enhancing the model’s adaptability to various unseen conditions. We also design a \textbf{U}-shaped \textbf{D}ual \textbf{S}pace \textbf{A}daptation (\textbf{U-DSA}) module to enhance the adaptability of representations while maintaining generalization performance. These improvements not only enhance the framework’s generalization capabilities but also boost its ability to represent complex representations. Our experimental results on four benchmark datasets under different evaluation protocols demonstrate that the MMDA framework outperforms existing state-of-the-art methods in terms of cross-domain generalization and multimodal detection accuracy. The code will be released soon.

arxiv情報

著者 Yingjie Ma,Xun Lin,Zitong Yu,Xin Liu,Xiaochen Yuan,Weicheng Xie,Linlin Shen
発行日 2025-05-14 15:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Denoising and Alignment: Rethinking Domain Generalization for Multimodal Face Anti-Spoofing はコメントを受け付けていません

Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput

要約

このホワイトペーパーでは、リアルタイムアプリケーション向けに視覚言語モデル(VLMS)を最適化するための新しいアプローチであるFlash-VL 2Bを紹介し、精度を犠牲にすることなく超低レイテンシと高スループットをターゲットにしています。
高度なアーキテクチャの強化と効率的な計算戦略を活用するFlash-VL 2Bは、複数のビジョン言語ベンチマークにわたって競争力のあるパフォーマンスを維持しながら、処理時間を短縮することによりスループットを最大化するように設計されています。
私たちのアプローチには、テーラードアーキテクチャの選択、トークン圧縮メカニズム、データキュレーション、トレーニングスキーム、および計算負荷とモデルのパフォーマンスを効果的にバランスさせる暗黙のセマンティックステッチと呼ばれる新しい画像処理手法が含まれます。
11の標準VLMベンチマークに関する広範な評価を通じて、Flash-VL 2Bが速度と精度の両方で最先端の結果を達成し、リソースが制約されている環境と大規模なリアルタイムアプリケーションでの展開の有望なソリューションにすることを実証します。

要約(オリジナル)

In this paper, we introduce Flash-VL 2B, a novel approach to optimizing Vision-Language Models (VLMs) for real-time applications, targeting ultra-low latency and high throughput without sacrificing accuracy. Leveraging advanced architectural enhancements and efficient computational strategies, Flash-VL 2B is designed to maximize throughput by reducing processing time while maintaining competitive performance across multiple vision-language benchmarks. Our approach includes tailored architectural choices, token compression mechanisms, data curation, training schemes, and a novel image processing technique called implicit semantic stitching that effectively balances computational load and model performance. Through extensive evaluations on 11 standard VLM benchmarks, we demonstrate that Flash-VL 2B achieves state-of-the-art results in both speed and accuracy, making it a promising solution for deployment in resource-constrained environments and large-scale real-time applications.

arxiv情報

著者 Bo Zhang,Shuo Li,Runhe Tian,Yang Yang,Jixin Tang,Jinhao Zhou,Lin Ma
発行日 2025-05-14 15:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput はコメントを受け付けていません

State-of-the-Art Periorbital Distance Prediction and Disease Classification Using Periorbital Features

要約

眼窩周囲距離は、さまざまな眼形成および頭蓋顔面の状態を診断および監視するための重要なマーカーです。
ただし、手動測定は主観的であり、学年の変動性が発生しやすくなります。
自動化された方法は開発されていますが、標準化されたイメージング要件、小さなデータセット、および個々の測定に狭い焦点によって制限されたままです。
健康的な目のドメイン固有のデータセットで訓練されたセグメンテーションパイプラインを開発し、そのパフォーマンスをAnyny Anyty Model(SAM)と以前のベンチマークPeriorbitaiと比較しました。
セグメンテーションの精度は、複数の疾患クラスとイメージング条件で評価されました。
さらに、浅い分類子、CNN、および融合モデルを比較した、分散分布(ID)および分散除外(OOD)の設定における疾患分類の特徴として、予測眼窩周囲距離の使用を調査しました。
セグメンテーションモデルは、すべてのデータセットで最先端の精度を達成し、SAMとPeriorBitaiと比較して、互いの変動性と優れたパフォーマンス内のエラー率を備えています。
分類タスクでは、眼窩周囲距離でトレーニングされたモデルは、IDデータのCNNパフォーマンス(77–78 \%精度)と一致し、OOD条件下でCNNを大幅に上回る(63–68 \%精度対14 \%)。
融合モデルは、最も高いID精度(80 \%)を達成しましたが、OODシフトの下で劣化したCNN機能に敏感でした。
セグメンテーション由来の眼窩周囲距離は、CNN画像分類子よりもドメインシフト下でよりよく一般化するための堅牢で説明可能な特徴を提供します。
これらの結果は、眼窩周囲の距離予測の新しいベンチマークを確立し、眼球形質性および頭蓋顔面ケアにおける現実世界の展開のための解剖学ベースのAIパイプラインの可能性を強調しています。

要約(オリジナル)

Periorbital distances are critical markers for diagnosing and monitoring a range of oculoplastic and craniofacial conditions. Manual measurement, however, is subjective and prone to intergrader variability. Automated methods have been developed but remain limited by standardized imaging requirements, small datasets, and a narrow focus on individual measurements. We developed a segmentation pipeline trained on a domain-specific dataset of healthy eyes and compared its performance against the Segment Anything Model (SAM) and the prior benchmark, PeriorbitAI. Segmentation accuracy was evaluated across multiple disease classes and imaging conditions. We further investigated the use of predicted periorbital distances as features for disease classification under in-distribution (ID) and out-of-distribution (OOD) settings, comparing shallow classifiers, CNNs, and fusion models. Our segmentation model achieved state-of-the-art accuracy across all datasets, with error rates within intergrader variability and superior performance relative to SAM and PeriorbitAI. In classification tasks, models trained on periorbital distances matched CNN performance on ID data (77–78\% accuracy) and substantially outperformed CNNs under OOD conditions (63–68\% accuracy vs. 14\%). Fusion models achieved the highest ID accuracy (80\%) but were sensitive to degraded CNN features under OOD shifts. Segmentation-derived periorbital distances provide robust, explainable features for disease classification and generalize better under domain shift than CNN image classifiers. These results establish a new benchmark for periorbital distance prediction and highlight the potential of anatomy-based AI pipelines for real-world deployment in oculoplastic and craniofacial care.

arxiv情報

著者 George R. Nahass,Sasha Hubschman,Jeffrey C. Peterson,Ghasem Yazdanpanah,Nicholas Tomaras,Madison Cheung,Alex Palacios,Kevin Heinze,Chad A. Purnell,Pete Setabutr,Ann Q. Tran,Darvin Yi
発行日 2025-05-14 16:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | State-of-the-Art Periorbital Distance Prediction and Disease Classification Using Periorbital Features はコメントを受け付けていません

A Call to Arms: AI Should be Critical for Social Media Analysis of Conflict Zones

要約

ソーシャルメディアデータの大幅な拡散は、紛争研究と武器の使用を追跡するための変革的な機会を表しています。これらのオンラインスペースで紛争がますます文書化されているためです。
同時に、利用可能なデータのスケールとタイプは、従来のオープンソースインテリジェンスに問題があります。
このホワイトペーパーでは、特にウクライナに与えられた国際的な軍事援助の規模を考えると、これらのタスクはオペレーショナルインテリジェンスと武器の拡散を追跡するために重要であるため、ウクライナ戦争で記録されているように、特定の武器システムと武装グループの記章を特定することに焦点を当てています。
しかし、大規模なソーシャルメディアでは手動評価が困難になっているため、このペーパーでは、コンピュータービジョンモデルを使用してこのタスクをサポートする初期の作業を紹介しています。
これらのモデルの両方が、ソーシャルメディアで共有された画像に埋め込まれた武器を識別できることを実証し、その結果としての軍事関連画像とそのポストタイムのコレクションが、オフラインで現実世界の対立とどのように相互作用するかを実証します。
その後、戦車、陸地鉱山、軍用トラックなどの画像の有病率の変化を追跡できるだけでなく、これらの画像に関連する時系列データとこの紛争における毎日の死亡者間の相関を見つけることができます。
この作業は、紛争コンテキストの同様のオンラインドキュメントを調べるための大きな機会を示しており、これらのオープンソースインテリジェンスタスクのコンピュータービジョンをさらに改善できる将来の道も示しています。

要約(オリジナル)

The massive proliferation of social media data represents a transformative opportunity for conflict studies and for tracking the proliferation and use of weaponry, as conflicts are increasingly documented in these online spaces. At the same time, the scale and types of data available are problematic for traditional open-source intelligence. This paper focuses on identifying specific weapon systems and the insignias of the armed groups using them as documented in the Ukraine war, as these tasks are critical to operational intelligence and tracking weapon proliferation, especially given the scale of international military aid given to Ukraine. The large scale of social media makes manual assessment difficult, however, so this paper presents early work that uses computer vision models to support this task. We demonstrate that these models can both identify weapons embedded in images shared in social media and how the resulting collection of military-relevant images and their post times interact with the offline, real-world conflict. Not only can we then track changes in the prevalence of images of tanks, land mines, military trucks, etc., we find correlations among time series data associated with these images and the daily fatalities in this conflict. This work shows substantial opportunity for examining similar online documentation of conflict contexts, and we also point to future avenues where computer vision can be further improved for these open-source intelligence tasks.

arxiv情報

著者 Afia Abedin,Abdul Bais,Cody Buntain,Laura Courchesne,Brian McQuinn,Matthew E. Taylor,Muhib Ullah
発行日 2025-05-14 16:07:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.HC | A Call to Arms: AI Should be Critical for Social Media Analysis of Conflict Zones はコメントを受け付けていません

Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net

要約

高解像度の機能的磁気共鳴イメージング(fMRI)は、人間の脳活動をマッピングするために不可欠です。
しかし、それはコストがかかり、ロジスティック的に挑戦的なままです。
広く利用可能な頭皮脳波(EEG)から同等の量を直接生成できる場合、高度なニューロイメージングは​​非常にアクセスしやすくなります。
既存のEEGからFMRIの発電機は、クロスチャネル時間周波数のキューをキャプチャできない単純なCNNに依存しています。
Spec2volcamu-netを提案します。これは、多方向の時間周波数畳み込み注意エンコーダーを介してこれらの問題に立ち向かう軽量のスペクトログラムから容積の発電機であり、自己立文を備えた一時的、スペクトル、および関節の畳み込みを積み重ね、ビジョンマンバU-NETデコーダーが直線的な状態を有効な長距離の空間モデルを遮断します。
ハイブリッドSSI-MSE損失を備えたトレーニングエンドツーエンドであるSpec2volcamu-netは、3つのパブリックベンチマークで最先端の忠実度を達成し、Noddiで0.693、Oddballで0.725、CN-EPFLで0.725のSSIMを記録し、14.5%、14.9%、14.9%の改善を表しています。
さらに、競争力のあるPSNRスコアを達成し、特に以前の最高のPSNRよりも4.6%改善されたCN-EPFLデータセットで優れているため、再構築品質のバランスが良いです。
提案されたモデルは軽量で効率的であり、臨床および研究環境でのリアルタイムアプリケーションに適しています。
このコードは、https://github.com/hdy6438/spec2volcamu-netで入手できます。

要約(オリジナル)

High-resolution functional magnetic resonance imaging (fMRI) is essential for mapping human brain activity; however, it remains costly and logistically challenging. If comparable volumes could be generated directly from widely available scalp electroencephalography (EEG), advanced neuroimaging would become significantly more accessible. Existing EEG-to-fMRI generators rely on plain CNNs that fail to capture cross-channel time-frequency cues or on heavy transformer/GAN decoders that strain memory and stability. We propose Spec2VolCAMU-Net, a lightweight spectrogram-to-volume generator that confronts these issues via a Multi-directional Time-Frequency Convolutional Attention Encoder, stacking temporal, spectral and joint convolutions with self-attention, and a Vision-Mamba U-Net decoder whose linear-time state-space blocks enable efficient long-range spatial modelling. Trained end-to-end with a hybrid SSI-MSE loss, Spec2VolCAMU-Net achieves state-of-the-art fidelity on three public benchmarks, recording SSIMs of 0.693 on NODDI, 0.725 on Oddball and 0.788 on CN-EPFL, representing improvements of 14.5%, 14.9%, and 16.9% respectively over previous best SSIM scores. Furthermore, it achieves competitive PSNR scores, particularly excelling on the CN-EPFL dataset with a 4.6% improvement over the previous best PSNR, thus striking a better balance in reconstruction quality. The proposed model is lightweight and efficient, making it suitable for real-time applications in clinical and research settings. The code is available at https://github.com/hdy6438/Spec2VolCAMU-Net.

arxiv情報

著者 Dongyi He,Shiyang Li,Bin Jiang,He Yan
発行日 2025-05-14 16:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net はコメントを受け付けていません

Conformal Bounds on Full-Reference Image Quality for Imaging Inverse Problems

要約

イメージングの逆の問題では、回復した画像がPSNR、SSIM、LPIPSなどのフルリファレンス画質(FRIQ)メトリックの観点から真の画像にどれだけ近いかを知りたいと思います。
しかし、本当のイメージがわからないので、FRIQを計算することは自明ではありません。
この作業では、コンフォーマル予測とおおよその後部サンプリングを組み合わせて、ユーザー指定のエラー確率に耐えることが保証されているFRIQの境界を構築します。
画像除去および加速磁気共鳴画像法(MRI)の問題に関するアプローチを示します。
コードはhttps://github.com/jwen307/quality_uqで入手できます。

要約(オリジナル)

In imaging inverse problems, we would like to know how close the recovered image is to the true image in terms of full-reference image quality (FRIQ) metrics like PSNR, SSIM, LPIPS, etc. This is especially important in safety-critical applications like medical imaging, where knowing that, say, the SSIM was poor could potentially avoid a costly misdiagnosis. But since we don’t know the true image, computing FRIQ is non-trivial. In this work, we combine conformal prediction with approximate posterior sampling to construct bounds on FRIQ that are guaranteed to hold up to a user-specified error probability. We demonstrate our approach on image denoising and accelerated magnetic resonance imaging (MRI) problems. Code is available at https://github.com/jwen307/quality_uq.

arxiv情報

著者 Jeffrey Wen,Rizwan Ahmad,Philip Schniter
発行日 2025-05-14 16:23:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Conformal Bounds on Full-Reference Image Quality for Imaging Inverse Problems はコメントを受け付けていません

Contactless Cardiac Pulse Monitoring Using Event Cameras

要約

タイムイベントカメラは、非常に低いレイテンシでシーン情報を記録するための新しいテクノロジーであり、消費電力が低いことです。
イベントカメラは、シーン内でピクセルレベルの光強度が変化するイベントのストリームを出力し、従来のカメラよりも高いダイナミックレンジと時間分解能で情報をキャプチャします。
この研究では、監視された畳み込みニューラルネットワーク(CNN)モデルを使用して、顔の時間イベント記録からの個人の心臓パルス信号の接触のない再構築を調査します。
エンドツーエンドモデルは、計算された心拍数の精度に基づいてモデルのパフォーマンスを評価し、イベントストリームの2次元表現から心臓信号を抽出するように訓練されています。
実験結果は、顔面地域の生理学的心臓情報がイベントストリーム内で効果的に保存されており、リモート心拍数モニタリングのためのこの新しいセンサーの可能性を紹介することを確認しています。
イベントフレームでトレーニングされたモデルは、標準カメラフレームでトレーニングされたベースラインモデルによって達成された2.92 bpmのRMSEと比較して、1分あたり3.32拍(bpm)のルート平均平方根誤差(RMSE)を実現します。
さらに、60 fpsおよび120 fpsで生成されたイベントフレームでトレーニングされたモデルは、それぞれ30 fps標準カメラの結果を上回り、それぞれ2.54と2.13 bpmのRMSEを達成しました。

要約(オリジナル)

Time event cameras are a novel technology for recording scene information at extremely low latency and with low power consumption. Event cameras output a stream of events that encapsulate pixel-level light intensity changes within the scene, capturing information with a higher dynamic range and temporal resolution than traditional cameras. This study investigates the contact-free reconstruction of an individual’s cardiac pulse signal from time event recording of their face using a supervised convolutional neural network (CNN) model. An end-to-end model is trained to extract the cardiac signal from a two-dimensional representation of the event stream, with model performance evaluated based on the accuracy of the calculated heart rate. The experimental results confirm that physiological cardiac information in the facial region is effectively preserved within the event stream, showcasing the potential of this novel sensor for remote heart rate monitoring. The model trained on event frames achieves a root mean square error (RMSE) of 3.32 beats per minute (bpm) compared to the RMSE of 2.92 bpm achieved by the baseline model trained on standard camera frames. Furthermore, models trained on event frames generated at 60 and 120 FPS outperformed the 30 FPS standard camera results, achieving an RMSE of 2.54 and 2.13 bpm, respectively.

arxiv情報

著者 Mohamed Moustafa,Joseph Lemley,Peter Corcoran
発行日 2025-05-14 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.ET, cs.LG, eess.IV | Contactless Cardiac Pulse Monitoring Using Event Cameras はコメントを受け付けていません

Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object Shapes

要約

自動運転車には、計画と行動のために周囲の完全な地図が必要です。
これにより、3D占有予測、3Dシーンの完了、および3Dパノプティックシーンの完成のタスクに関する研究が生まれました。これは、エゴ車両の周囲の密なマップをボクセルグリッドとして予測します。
シーンの完了は、ボクセルグリッドの閉塞領域を予測することにより占有予測を拡張し、パノプティックシーンの完了は、同じクラス内のオブジェクトインスタンスを区別することにより、このタスクをさらに拡張します。
両方の側面は、パス計画と意思決定に不可欠です。
ただし、3Dパノプティックシーンの完成は現在、掘り下げられていません。
この作業では、既存の3Dセマンティックシーンの完了モデルを拡張する3Dパノプティックシーンの完了のための新しいフレームワークを紹介します。
文献に示されている3D占有率とシーン完了方法と簡単に統合できるオブジェクトモジュールとパノプティックモジュールを提案します。
当社のアプローチは、利用可能な注釈を占有ベンチマークで活用し、個々のオブジェクトの形状を微分可能な問題として学習できるようにします。
このコードは、https://github.com/nicolamarinello/offsetoccで入手できます。

要約(オリジナル)

Autonomous vehicles need a complete map of their surroundings to plan and act. This has sparked research into the tasks of 3D occupancy prediction, 3D scene completion, and 3D panoptic scene completion, which predict a dense map of the ego vehicle’s surroundings as a voxel grid. Scene completion extends occupancy prediction by predicting occluded regions of the voxel grid, and panoptic scene completion further extends this task by also distinguishing object instances within the same class; both aspects are crucial for path planning and decision-making. However, 3D panoptic scene completion is currently underexplored. This work introduces a novel framework for 3D panoptic scene completion that extends existing 3D semantic scene completion models. We propose an Object Module and Panoptic Module that can easily be integrated with 3D occupancy and scene completion methods presented in the literature. Our approach leverages the available annotations in occupancy benchmarks, allowing individual object shapes to be learned as a differentiable problem. The code is available at https://github.com/nicolamarinello/OffsetOcc .

arxiv情報

著者 Nicola Marinello,Simen Cassiman,Jonas Heylen,Marc Proesmans,Luc Van Gool
発行日 2025-05-14 17:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object Shapes はコメントを受け付けていません