MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting

要約

海洋霧の検出と予測のための深い学習アプローチは、従来の方法を上回り、科学的および実用的な重要性を示しています。
ただし、オープンソースのデータセットの限られた可用性は依然として大きな課題です。
多くの場合、単一の領域または衛星に焦点を当てた既存のデータセットは、多様な条件全体でモデルのパフォーマンスを評価する能力を制限し、内因性の海洋霧特性の調査を妨げます。
これらの制限に対処するために、15の沿岸霧が発生しやすい領域と68,000を超える高解像度サンプルを含む6つの沿岸霧が発生した領域と6つの静止型衛星からの注釈付き海洋霧観測を統合するための最初の多領域および多系統のデータセットである\ TextBF {MFOGHUB}を導入します。
多様な地域と衛星の視点を包含することにより、MFOGHUBは、さまざまな条件下での検出方法と予測方法の両方の厳密な評価を促進します。
16のベースラインモデルを使用した広範な実験は、MFOGHUBが地域および衛星の矛盾により一般化の変動を明らかにすることができることを示していますが、ターゲットとスケーラブルな霧予測技術の開発のための貴重なリソースとしても機能します。
MFOGHUBを通じて、私たちは、世界規模での海洋霧のダイナミクスの実用的な監視と科学的理解の両方を前進させることを目指しています。
データセットとコードは\ href {https://github.com/kaka0910/mfoghub} {https://github.com/kaka0910/mfoghub}です。

要約(オリジナル)

Deep learning approaches for marine fog detection and forecasting have outperformed traditional methods, demonstrating significant scientific and practical importance. However, the limited availability of open-source datasets remains a major challenge. Existing datasets, often focused on a single region or satellite, restrict the ability to evaluate model performance across diverse conditions and hinder the exploration of intrinsic marine fog characteristics. To address these limitations, we introduce \textbf{MFogHub}, the first multi-regional and multi-satellite dataset to integrate annotated marine fog observations from 15 coastal fog-prone regions and six geostationary satellites, comprising over 68,000 high-resolution samples. By encompassing diverse regions and satellite perspectives, MFogHub facilitates rigorous evaluation of both detection and forecasting methods under varying conditions. Extensive experiments with 16 baseline models demonstrate that MFogHub can reveal generalization fluctuations due to regional and satellite discrepancy, while also serving as a valuable resource for the development of targeted and scalable fog prediction techniques. Through MFogHub, we aim to advance both the practical monitoring and scientific understanding of marine fog dynamics on a global scale. The dataset and code are at \href{https://github.com/kaka0910/MFogHub}{https://github.com/kaka0910/MFogHub}.

arxiv情報

著者 Mengqiu Xu,Kaixin Chen,Heng Guo,Yixiang Huang,Ming Wu,Zhenwei Shi,Chuang Zhang,Jun Guo
発行日 2025-05-15 13:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting はコメントを受け付けていません

MSCI: Addressing CLIP’s Inherent Limitations for Compositional Zero-Shot Learning

要約

構成ゼロショット学習(CZSL)は、既知の組み合わせを活用することにより、目に見えない状態オブジェクトの組み合わせを認識することを目的としています。
既存の研究は基本的に、クリップのクロスモーダルアラインメント機能に依存していますが、建築とトレーニングのパラダイムから生じる細かい地域の特徴をキャプチャする際の制限を見落とす傾向があります。
この問題に対処するために、Clipの視覚エンコーダーから中間層情報を効果的に調査および利用するマルチステージクロスモーダルインタラクション(MSCI)モデルを提案します。
具体的には、2つの自己適応的なアグリゲーターを設計して、低レベルの視覚機能からローカル情報を抽出し、それぞれ高レベルの視覚機能からグローバル情報を統合します。
これらの重要な情報は、段階ごとの相互作用メカニズムを通じてテキスト表現に徐々に組み込まれ、微調整されたローカル視覚情報に対するモデルの認識能力を大幅に向上させます。
さらに、MSCIは、さまざまな組み合わせと同じ組み合わせ内のさまざまな要素に基づいて、グローバルとローカルの視覚情報の間の注意力を動的に調整し、多様なシナリオに柔軟に適応できるようにします。
広く使用されている3つのデータセットでの実験は、提案されたモデルの有効性と優位性を完全に検証します。
データとコードはhttps://github.com/ltpwy/msciで入手できます。

要約(オリジナル)

Compositional Zero-Shot Learning (CZSL) aims to recognize unseen state-object combinations by leveraging known combinations. Existing studies basically rely on the cross-modal alignment capabilities of CLIP but tend to overlook its limitations in capturing fine-grained local features, which arise from its architectural and training paradigm. To address this issue, we propose a Multi-Stage Cross-modal Interaction (MSCI) model that effectively explores and utilizes intermediate-layer information from CLIP’s visual encoder. Specifically, we design two self-adaptive aggregators to extract local information from low-level visual features and integrate global information from high-level visual features, respectively. These key information are progressively incorporated into textual representations through a stage-by-stage interaction mechanism, significantly enhancing the model’s perception capability for fine-grained local visual information. Additionally, MSCI dynamically adjusts the attention weights between global and local visual information based on different combinations, as well as different elements within the same combination, allowing it to flexibly adapt to diverse scenarios. Experiments on three widely used datasets fully validate the effectiveness and superiority of the proposed model. Data and code are available at https://github.com/ltpwy/MSCI.

arxiv情報

著者 Yue Wang,Shuai Xu,Xuelin Zhu,Yicong Li
発行日 2025-05-15 13:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MSCI: Addressing CLIP’s Inherent Limitations for Compositional Zero-Shot Learning はコメントを受け付けていません

StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation

要約

視覚的なストーリーテリングシステムは、フレーム全体でキャラクターのアイデンティティを維持し、アクションを適切な主題にリンクするのに苦労し、しばしば参照幻覚につながります。
これらの問題は、視覚的要素上のキャラクター、オブジェクト、およびその他のエンティティを接地することで対処できます。
StoryReasoningを提案します。これは、構造化されたシーン分析と根拠のあるストーリーの両方を備えた52,016の映画画像から派生した4,178のストーリーを含むデータセットを提案します。
各ストーリーは、構造化された表表現を介してマルチフレーム関係を明示的にモデル化しながら、フレーム間の文字とオブジェクトの一貫性を維持します。
私たちのアプローチは、視覚的な類似性と顔認識、明示的な物語モデリングの考え方の推論、および複数のフレームの視覚エンティティにテキスト要素をリンクする基礎スキームを使用して、クロスフレームオブジェクトの再識別を特徴としています。
QWEN2.5-VL 7Bを微調整することによりベースラインパフォーマンスを確立し、ストーリー全体で一貫したオブジェクト参照を維持しながら、エンドツーエンドオブジェクトの検出、再識別、ランドマーク検出を実行するQWenストーリーテラーを作成します。
評価は、非ファインチューニングモデルと比較した場合、ストーリーごとに平均で4.06から3.56(-12.3%)の幻覚に減少したことを示しています。

要約(オリジナル)

Visual storytelling systems struggle to maintain character identity across frames and link actions to appropriate subjects, frequently leading to referential hallucinations. These issues can be addressed through grounding of characters, objects, and other entities on the visual elements. We propose StoryReasoning, a dataset containing 4,178 stories derived from 52,016 movie images, with both structured scene analyses and grounded stories. Each story maintains character and object consistency across frames while explicitly modeling multi-frame relationships through structured tabular representations. Our approach features cross-frame object re-identification using visual similarity and face recognition, chain-of-thought reasoning for explicit narrative modeling, and a grounding scheme that links textual elements to visual entities across multiple frames. We establish baseline performance by fine-tuning Qwen2.5-VL 7B, creating Qwen Storyteller, which performs end-to-end object detection, re-identification, and landmark detection while maintaining consistent object references throughout the story. Evaluation demonstrates a reduction from 4.06 to 3.56 (-12.3%) hallucinations on average per story when compared to a non-fine-tuned model.

arxiv情報

著者 Daniel A. P. Oliveira,David Martins de Matos
発行日 2025-05-15 13:42:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.10 | StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation はコメントを受け付けていません

MIPHEI-ViT: Multiplex Immunofluorescence Prediction from H&E Images using ViT Foundation Models

要約

組織病理学的分析は、ヘマトキシリンとエオシン(H&E)染色がすべての患者が定期的に獲得して細胞の形態と組織の構造を視覚化することを伴う癌診断の基礎です。
一方、マルチプレックス免疫蛍光(MIF)は、プロテオームマーカーを介してより正確な細胞型の識別を可能にしますが、コストと物流上の制約により、まだ広範な臨床採用を達成していません。
このギャップを埋めるために、最先端のVITファンデーションモデルをエンコーダーとして統合してH&E画像からのMIFシグナルを予測するU-NETにインスパイアされたアーキテクチャであるMiphei(H&Eからの多重免疫蛍光予測)を紹介します。
Mipheiは、核含有量、免疫系統(T細胞、B細胞、骨髄性)、上皮、間質、血管系、および増殖にまたがる包括的なマーカーの包括的なパネルを標的とします。
結腸直腸癌組織からのRESTALED H&EおよびMIF画像の公開されているOrionデータセットを使用してモデルをトレーニングし、2つの独立したデータセットで検証します。
Mipheiは、H&Eのみから正確な細胞型分類を実現し、Pan-CKで0.88、CD3Eで0.57、SMAで0.56、CD20で0.30、CD20で0.30は、最先端のベースラインとほとんどのマーカーのランダム分類器の両方を大幅に上回ります。
我々の結果は、私たちのモデルが、特定の細胞タイプを定義するH&E画像と分子マーカーで見えるように、組織の文脈における核形態間の複雑な関係を効果的に捉えていることを示しています。
Mipheiは、空間細胞組織と患者の転帰の間の関係を明らかにすることを考慮して、大規模なH&Eデータセットの細胞型認識分析を有効にするための有望なステップを提供します。

要約(オリジナル)

Histopathological analysis is a cornerstone of cancer diagnosis, with Hematoxylin and Eosin (H&E) staining routinely acquired for every patient to visualize cell morphology and tissue architecture. On the other hand, multiplex immunofluorescence (mIF) enables more precise cell type identification via proteomic markers, but has yet to achieve widespread clinical adoption due to cost and logistical constraints. To bridge this gap, we introduce MIPHEI (Multiplex Immunofluorescence Prediction from H&E), a U-Net-inspired architecture that integrates state-of-the-art ViT foundation models as encoders to predict mIF signals from H&E images. MIPHEI targets a comprehensive panel of markers spanning nuclear content, immune lineages (T cells, B cells, myeloid), epithelium, stroma, vasculature, and proliferation. We train our model using the publicly available ORION dataset of restained H&E and mIF images from colorectal cancer tissue, and validate it on two independent datasets. MIPHEI achieves accurate cell-type classification from H&E alone, with F1 scores of 0.88 for Pan-CK, 0.57 for CD3e, 0.56 for SMA, 0.36 for CD68, and 0.30 for CD20, substantially outperforming both a state-of-the-art baseline and a random classifier for most markers. Our results indicate that our model effectively captures the complex relationships between nuclear morphologies in their tissue context, as visible in H&E images and molecular markers defining specific cell types. MIPHEI offers a promising step toward enabling cell-type-aware analysis of large-scale H&E datasets, in view of uncovering relationships between spatial cellular organization and patient outcomes.

arxiv情報

著者 Guillaume Balezo,Roger Trullo,Albert Pla Planas,Etienne Decenciere,Thomas Walter
発行日 2025-05-15 13:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 92C55, cs.CV, I.2.10, q-bio.TO | MIPHEI-ViT: Multiplex Immunofluorescence Prediction from H&E Images using ViT Foundation Models はコメントを受け付けていません

SOS: A Shuffle Order Strategy for Data Augmentation in Industrial Human Activity Recognition

要約

人間の活動認識(HAR)の領域では、高品質と分散データを取得することは、高コストと実際の活動の固有の変動性により、依然として持続的な課題です。
この研究では、ディープラーニングアプローチ(注意オートエンコーダーと条件付き生成敵のネットワーク)による生成データセットを紹介します。
データの不均一性が重要な課題であるという別の問題は、解決策の1つがデータをシャッフルして分布を均質化することです。
実験結果は、ランダムシーケンス戦略が分類パフォーマンスを大幅に改善し、最大0.70 $ \ pm $ 0.03の精度と0.64 $ \ PM $ 0.01のマクロF1スコアを達成することを示しています。
そのためには、ランダムシーケンスを介して時間的依存性を破壊すると、モデルは瞬間的な認識に焦点を合わせ、それにより活動遷移に対する堅牢性を向上させます。
このアプローチは、効果的なトレーニングデータセットを広げるだけでなく、複雑で実世界のシナリオでHARシステムを強化するための有望な手段を提供します。

要約(オリジナル)

In the realm of Human Activity Recognition (HAR), obtaining high quality and variance data is still a persistent challenge due to high costs and the inherent variability of real-world activities. This study introduces a generation dataset by deep learning approaches (Attention Autoencoder and conditional Generative Adversarial Networks). Another problem that data heterogeneity is a critical challenge, one of the solutions is to shuffle the data to homogenize the distribution. Experimental results demonstrate that the random sequence strategy significantly improves classification performance, achieving an accuracy of up to 0.70 $\pm$ 0.03 and a macro F1 score of 0.64 $\pm$ 0.01. For that, disrupting temporal dependencies through random sequence reordering compels the model to focus on instantaneous recognition, thereby improving robustness against activity transitions. This approach not only broadens the effective training dataset but also offers promising avenues for enhancing HAR systems in complex, real-world scenarios.

arxiv情報

著者 Anh Tuan Ha,Hoang Khang Phan,Thai Minh Tien Ngo,Anh Phan Truong,Nhat Tan Le
発行日 2025-05-15 13:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | SOS: A Shuffle Order Strategy for Data Augmentation in Industrial Human Activity Recognition はコメントを受け付けていません

Estimating the Diameter at Breast Height of Trees in a Forest With a Single 360 Camera

要約

森林在庫は、生態学的監視、資源管理、炭素会計のために、乳房の高さ(DBH)の直径の正確な測定に依存しています。
LIDARベースの手法はセンチメートルレベルの精度を達成できますが、コストが抑制され、運用上複雑です。
消費者グレードの360ビデオカメラのみが必要な低コストの代替品を紹介します。
私たちの半自動パイプラインは、(i)Agisoft Metashapeと呼ばれる動き(SFM)写真測量ソフトウェアを使用した(ii)3Dクラウドに根拠のあるセグメントセグメントを投影することによるセマンティックトランクセグメンテーションを使用した密なポイントクラウド再構成で構成されています。
セグメント化された木とその推定DBHを検査するためのインタラクティブな視覚化ツールを紹介します。
さまざまな条件下で43本の木の61枚の取得で、私たちの方法は、「地上」の手動測定に関して5〜9%の絶対相対誤差の中央値を達成します。
これは、LIDARベースの推定値よりも2〜4%高くなっていますが、桁違いが少なく、最小限のセットアップが必要で、広く利用可能な単一の360カメラを使用しています。

要約(オリジナル)

Forest inventories rely on accurate measurements of the diameter at breast height (DBH) for ecological monitoring, resource management, and carbon accounting. While LiDAR-based techniques can achieve centimeter-level precision, they are cost-prohibitive and operationally complex. We present a low-cost alternative that only needs a consumer-grade 360 video camera. Our semi-automated pipeline comprises of (i) a dense point cloud reconstruction using Structure from Motion (SfM) photogrammetry software called Agisoft Metashape, (ii) semantic trunk segmentation by projecting Grounded Segment Anything (SAM) masks onto the 3D cloud, and (iii) a robust RANSAC-based technique to estimate cross section shape and DBH. We introduce an interactive visualization tool for inspecting segmented trees and their estimated DBH. On 61 acquisitions of 43 trees under a variety of conditions, our method attains median absolute relative errors of 5-9% with respect to ‘ground-truth’ manual measurements. This is only 2-4% higher than LiDAR-based estimates, while employing a single 360 camera that costs orders of magnitude less, requires minimal setup, and is widely available.

arxiv情報

著者 Siming He,Zachary Osman,Fernando Cladera,Dexter Ong,Nitant Rai,Patrick Corey Green,Vijay Kumar,Pratik Chaudhari
発行日 2025-05-15 14:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Estimating the Diameter at Breast Height of Trees in a Forest With a Single 360 Camera はコメントを受け付けていません

Measuring Student Behavioral Engagement using Histogram of Actions

要約

この論文では、学生の行動認識を通じて行動の関与を測定するための新しい手法を提案します。
提案されたアプローチは、学生の行動を認識し、学生の行動エンゲージメントレベルを予測します。
学生のアクション認識のために、人間の骨格を使用して、学生の姿勢と上半身の動きをモデル化します。
学生の上半身のダイナミクスを学ぶために、3D-CNNモデルが使用されます。
訓練された3D-CNNモデルは、2分ごとのビデオセグメント内のアクションを認識するために使用され、これらのアクションは、学生のアクションとその頻度をコードするアクションのヒストグラムを構築するために使用されます。
このヒストグラムは、SVM分類器への入力として使用され、学生が関与しているか解放されているかを分類します。
提案されたフレームワークを評価するために、13のアクションと2つのエンゲージメントレベルが注釈された112のビデオセグメントが注釈された1414の2分間のビデオセグメントで構成されるデータセットを構築します。
実験結果は、学生の行動が上位1の精度83.63%で認識され、提案されたフレームワークがクラ​​スの平均エンゲージメントを獲得できることを示しています。

要約(オリジナル)

In this paper, we propose a novel technique for measuring behavioral engagement through students’ actions recognition. The proposed approach recognizes student actions then predicts the student behavioral engagement level. For student action recognition, we use human skeletons to model student postures and upper body movements. To learn the dynamics of student upper body, a 3D-CNN model is used. The trained 3D-CNN model is used to recognize actions within every 2minute video segment then these actions are used to build a histogram of actions which encodes the student actions and their frequencies. This histogram is utilized as an input to SVM classifier to classify whether the student is engaged or disengaged. To evaluate the proposed framework, we build a dataset consisting of 1414 2-minute video segments annotated with 13 actions and 112 video segments annotated with two engagement levels. Experimental results indicate that student actions can be recognized with top 1 accuracy 83.63% and the proposed framework can capture the average engagement of the class.

arxiv情報

著者 Ahmed Abdelkawy,Aly Farag,Islam Alkabbany,Asem Ali,Chris Foreman,Thomas Tretter,Nicholas Hindy
発行日 2025-05-15 14:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Measuring Student Behavioral Engagement using Histogram of Actions はコメントを受け付けていません

Pose Priors from Language Models

要約

言語は物理的な相互作用を説明するためによく使用されますが、ほとんどの3D人間のポーズ推定方法は、この豊富な情報源を見落としています。
接触ポーズを再構築するためのプライアーとして大きなマルチモーダルモデル(LMM)を活用することにより、このギャップを埋め、人間の注釈やモーションキャプチャデータに依存する従来の方法に代わるスケーラブルな代替品を提供します。
私たちのアプローチは、LMMから接触関連記述子を抽出し、それらを扱いやすい損失に変換して、3Dヒトのポーズ最適化を制約します。
その単純さにもかかわらず、私たちの方法は、2人の相互作用と自己接触シナリオの両方に魅力的な再構成を生み出し、身体的および社会的相互作用のセマンティクスを正確にキャプチャします。
我々の結果は、LMMが接触予測と推定の強力なツールとして役立つことを示しており、コストのかかる手動の人間の注釈またはモーションキャプチャデータに代わるものを提供します。
私たちのコードは、https://prosepose.github.ioで公開されています。

要約(オリジナル)

Language is often used to describe physical interaction, yet most 3D human pose estimation methods overlook this rich source of information. We bridge this gap by leveraging large multimodal models (LMMs) as priors for reconstructing contact poses, offering a scalable alternative to traditional methods that rely on human annotations or motion capture data. Our approach extracts contact-relevant descriptors from an LMM and translates them into tractable losses to constrain 3D human pose optimization. Despite its simplicity, our method produces compelling reconstructions for both two-person interactions and self-contact scenarios, accurately capturing the semantics of physical and social interactions. Our results demonstrate that LMMs can serve as powerful tools for contact prediction and pose estimation, offering an alternative to costly manual human annotations or motion capture data. Our code is publicly available at https://prosepose.github.io.

arxiv情報

著者 Sanjay Subramanian,Evonne Ng,Lea Müller,Dan Klein,Shiry Ginosar,Trevor Darrell
発行日 2025-05-15 14:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pose Priors from Language Models はコメントを受け付けていません

A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability

要約

自己教師の学習は、広範な非標識データを利用することに有望ですが、特にビジョンにおいて、重大なプライバシーの懸念にも直面しています。
このホワイトペーパーでは、より現実的な設定で視覚的に自己監視されたモデルに関するメンバーシップ推論を実行します。自己教師のトレーニング方法と詳細は、実際にブラックボックスシステムに直面しているため、攻撃する際に敵にとって不明です。
この設定では、自己監視モデルがまったく異なる自己監視パラダイム、たとえばマスクされた画像モデリングと対照学習、複雑なトレーニングの詳細を使用して、Partcropと呼ばれる統一されたメンバーシップ推論方法によってトレーニングできることを考慮します。
これは、モデル間で共有されたパートアウェア機能と、トレーニングデータのより強いパーツ応答によって動機付けられています。
具体的には、パートクロップは、表現空間内の画像内の応答を照会するために、画像にオブジェクトの一部を収穫します。
3つの広く使用されている画像データセットを使用して、さまざまなトレーニングプロトコルと構造を使用して、自己監視モデルに対して広範な攻撃を実施しています。
結果は、パートクロップの有効性と一般化を検証します。
さらに、PartCropを防御するために、2つの一般的なアプローチ、つまり早期停止と差別的なプライバシーを評価し、収縮する作物尺度範囲と呼ばれる調整された方法を提案します。
防衛実験は、それらすべてが効果的であることを示しています。
最後に、Toy Visual Encodersと小規模画像データセットでのプロトタイプテストに加えて、現実的なシナリオでのデータとモデルの両方の側面からのスケーリングの影響を定量的に研究し、PartCropに2つの構造改善を導入することにより、スケーラブルなPartCrop-V2を提案します。
私たちのコードはhttps://github.com/jiepku/partcropにあります。

要約(オリジナル)

Self-supervised learning shows promise in harnessing extensive unlabeled data, but it also confronts significant privacy concerns, especially in vision. In this paper, we perform membership inference on visual self-supervised models in a more realistic setting: self-supervised training method and details are unknown for an adversary when attacking as he usually faces a black-box system in practice. In this setting, considering that self-supervised model could be trained by completely different self-supervised paradigms, e.g., masked image modeling and contrastive learning, with complex training details, we propose a unified membership inference method called PartCrop. It is motivated by the shared part-aware capability among models and stronger part response on the training data. Specifically, PartCrop crops parts of objects in an image to query responses within the image in representation space. We conduct extensive attacks on self-supervised models with different training protocols and structures using three widely used image datasets. The results verify the effectiveness and generalization of PartCrop. Moreover, to defend against PartCrop, we evaluate two common approaches, i.e., early stop and differential privacy, and propose a tailored method called shrinking crop scale range. The defense experiments indicate that all of them are effective. Finally, besides prototype testing on toy visual encoders and small-scale image datasets, we quantitatively study the impacts of scaling from both data and model aspects in a realistic scenario and propose a scalable PartCrop-v2 by introducing two structural improvements to PartCrop. Our code is at https://github.com/JiePKU/PartCrop.

arxiv情報

著者 Jie Zhu,Jirong Zha,Ding Li,Leye Wang
発行日 2025-05-15 14:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability はコメントを受け付けていません

SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity

要約

スパイクニューラルネットワーク(SNN)は、さまざまなビジョンタスクで人工ニューラルネットワーク(ANN)に競争力のあるパフォーマンスを示し、優れたエネルギー効率を提供しています。
ただし、既存のSNNベースの変圧器は主に単一画像タスクに焦点を当てており、空間機能を強調しながら、ビデオベースのビジョンタスクにおけるSNNSの効率を効果的に活用しません。
このペーパーでは、リニア時間的複雑さ$ \ mathcal {o}(t)$を特徴とする効率的なスパイク駆動型のビデオトランスであるSpikevideoformerを紹介します。
具体的には、スパイク駆動型のハミング注意(SDHA)を設計します。これは、従来の実質的な注意からスパイク駆動型の注意に理論的に誘導された適応を提供します。
SDHAに基づいて、さまざまなスパイク駆動型の時空の注意設計をさらに分析し、ビデオタスクに魅力的なパフォーマンスを提供する最適なスキームを特定しながら、線形の時間的複雑さのみを維持します。
モデルの一般化能力と効率は、分類、人間のポーズ追跡、セマンティックセグメンテーションなど、多様な下流のビデオタスク全体で実証されています。
経験的な結果は、私たちの方法が既存のSNNアプローチと比較して最先端(SOTA)のパフォーマンスを達成し、後者の2つのタスクに15を超える改善を示していることを示しています。
さらに、最近のANNベースの方法のパフォーマンスと一致しながら、大幅な効率向上を提供し、3つのタスクで$ 16 $、$ \ Times 10 $、および$ \ Times 5 $の改善を達成します。
https://github.com/jimmyzou/spikevideoformer

要約(オリジナル)

Spiking Neural Networks (SNNs) have shown competitive performance to Artificial Neural Networks (ANNs) in various vision tasks, while offering superior energy efficiency. However, existing SNN-based Transformers primarily focus on single-image tasks, emphasizing spatial features while not effectively leveraging SNNs’ efficiency in video-based vision tasks. In this paper, we introduce SpikeVideoFormer, an efficient spike-driven video Transformer, featuring linear temporal complexity $\mathcal{O}(T)$. Specifically, we design a spike-driven Hamming attention (SDHA) which provides a theoretically guided adaptation from traditional real-valued attention to spike-driven attention. Building on SDHA, we further analyze various spike-driven space-time attention designs and identify an optimal scheme that delivers appealing performance for video tasks, while maintaining only linear temporal complexity. The generalization ability and efficiency of our model are demonstrated across diverse downstream video tasks, including classification, human pose tracking, and semantic segmentation. Empirical results show our method achieves state-of-the-art (SOTA) performance compared to existing SNN approaches, with over 15\% improvement on the latter two tasks. Additionally, it matches the performance of recent ANN-based methods while offering significant efficiency gains, achieving $\times 16$, $\times 10$ and $\times 5$ improvements on the three tasks. https://github.com/JimmyZou/SpikeVideoFormer

arxiv情報

著者 Shihao Zou,Qingfeng Li,Wei Ji,Jingjing Li,Yongkui Yang,Guoqi Li,Chao Dong
発行日 2025-05-15 14:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity はコメントを受け付けていません