SpikeGen: Generative Framework for Visual Spike Stream Processing

要約

スパイクカメラなどの神経型の視覚システムは、動的な条件下で透明なテクスチャをキャプチャする能力により、かなりの注目を集めています。
この機能は、運動と開口部のぼやけに関連する問題を効果的に軽減します。
ただし、密な空間情報を提供する従来のRGBモダリティとは対照的に、これらのシステムは、一時的に豊富な視覚ストリームのトレードオフとして、バイナリ、空間的スパースフレームを生成します。
これに関連して、生成モデルは、スパースデータの固有の制限に対処するための有望なソリューションとして現れます。
これらのモデルは、スパイクとRGBの両方のモダリティからの既存の情報の条件付き融合を促進するだけでなく、潜在性の前層に基づいて条件付き生成を可能にします。
この研究では、SpikeGenという名前の堅牢な生成処理フレームワークを紹介します。SpikeGenは、スパイクカメラによってキャプチャされた視覚的なスパイクストリーム用に設計されています。
このフレームワークは、条件付き画像/ビデオの脱生、スパイクストリームからの密なフレーム再構成、高速シーンの小説視聴統合など、混合スパイクRGBモダリティを含む複数のタスクにわたって評価します。
包括的な実験結果に支えられて、生成モデルの潜在的な空間動作能力を活用することで、スパイクストリームの時間的豊富さを完全に活用しながら、空間情報のスパース性に効果的に対処できることを実証し、それによって異なる視覚モダリティの相乗的強化を促進します。

要約(オリジナル)

Neuromorphic Visual Systems, such as spike cameras, have attracted considerable attention due to their ability to capture clear textures under dynamic conditions. This capability effectively mitigates issues related to motion and aperture blur. However, in contrast to conventional RGB modalities that provide dense spatial information, these systems generate binary, spatially sparse frames as a trade-off for temporally rich visual streams. In this context, generative models emerge as a promising solution to address the inherent limitations of sparse data. These models not only facilitate the conditional fusion of existing information from both spike and RGB modalities but also enable the conditional generation based on latent priors. In this study, we introduce a robust generative processing framework named SpikeGen, designed for visual spike streams captured by spike cameras. We evaluate this framework across multiple tasks involving mixed spike-RGB modalities, including conditional image/video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by comprehensive experimental results, we demonstrate that leveraging the latent space operation abilities of generative models allows us to effectively address the sparsity of spatial information while fully exploiting the temporal richness of spike streams, thereby promoting a synergistic enhancement of different visual modalities.

arxiv情報

著者 Gaole Dai,Menghang Dong,Rongyu Zhang,Ruichuan An,Shanghang Zhang,Tiejun Huang
発行日 2025-05-23 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpikeGen: Generative Framework for Visual Spike Stream Processing はコメントを受け付けていません

LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision

要約

視覚変圧器は、より大きく、より正確で、計算がより高価です。
トークンの数は画像サイズとともに二次的に増加するため、高解像度ではさらに極端になります。
このコストに対処するための適応計算に目を向け、計算する場所を予測することを学習します。
私たちのLookwhere方法は、完全な高解像度入力を処理することなく、低解像度セレクターと高解像度抽出器の間の計算を分割します。
私たちは、自己監視された教師からの蒸留により、タスクの監督なしでセレクターと抽出器を共同で前提とし、事実上、同時にどこで何を計算するかを学びます。
剪定既に計算されたトークンを剪定することで節約するために支払う前のトークン削減方法、および複雑で高価なタスクごとの最適化を必要とするトークン選択方法は、経済的かつ正確に画像の表現を正確に選択および抽出する前には異なります。
私たちは、外観が高解像度の入力(交通標識)のまばらな認識に優れており、精度を維持しながら、フロップを最大34倍、時間を6倍縮小することを示しています。
また、グローバル(Imagenet分類)またはローカル(ADE20Kセグメンテーション)の標準認識タスクに優れており、精度を改善しながら時間を1.36倍に短縮します。

要約(オリジナル)

Vision transformers are ever larger, more accurate, and more expensive to compute. The expense is even more extreme at high resolution as the number of tokens grows quadratically with the image size. We turn to adaptive computation to cope with this cost by learning to predict where to compute. Our LookWhere method divides the computation between a low-resolution selector and a high-resolution extractor without ever processing the full high-resolution input. We jointly pretrain the selector and extractor without task supervision by distillation from a self-supervised teacher, in effect, learning where and what to compute simultaneously. Unlike prior token reduction methods, which pay to save by pruning already-computed tokens, and prior token selection methods, which require complex and expensive per-task optimization, LookWhere economically and accurately selects and extracts transferrable representations of images. We show that LookWhere excels at sparse recognition on high-resolution inputs (Traffic Signs), maintaining accuracy while reducing FLOPs by up to 34x and time by 6x. It also excels at standard recognition tasks that are global (ImageNet classification) or local (ADE20K segmentation), improving accuracy while reducing time by 1.36x.

arxiv情報

著者 Anthony Fuller,Yousef Yassin,Junfeng Wen,Daniel G. Kyrollos,Tarek Ibrahim,James R. Green,Evan Shelhamer
発行日 2025-05-23 15:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision はコメントを受け付けていません

BOTM: Echocardiography Segmentation via Bi-directional Optimal Token Matching

要約

存在した心エコー検査セグメンテーション法は、形状の変動、部分観察、および2D心エコー造影シーケンス全体で同様の強度の領域のあいまいさによって引き起こされる解剖学的矛盾の課題に苦しみ、結果として低信号とノイズの比率条件に挑戦する解剖学的敗北構造との偽陽性のセグメンテーションをもたらします。
さまざまな心エコーフレームにわたって強力な解剖学的保証を提供するために、心エコー検査セグメンテーションと最適な解剖学的輸送を同時に実行するBOTM(双方向最適トークンマッチング)という名前の新しいセグメンテーションフレームワークを提案します。
ペアの心エコー画像を考えると、BOTMは、新しい解剖学的輸送の観点から最適な対応を見つけることにより、2つの離散画像トークンを一致させることを学びます。
さらに、トークンの一致を双方向のクロストランスポート注意プロキシに拡張して、側頭ドメインの心周期的変形内の保存された解剖学的一貫性を調節します。
広範な実験結果は、BOTMが安定した正確なセグメンテーションの結果を生成できることを示しています(例:CAMUS2H LVで-1.917 HD、TEDの +1.9%のサイコロ)、解剖学的一貫性保証とより良い一致解釈を提供します。

要約(オリジナル)

Existed echocardiography segmentation methods often suffer from anatomical inconsistency challenge caused by shape variation, partial observation and region ambiguity with similar intensity across 2D echocardiographic sequences, resulting in false positive segmentation with anatomical defeated structures in challenging low signal-to-noise ratio conditions. To provide a strong anatomical guarantee across different echocardiographic frames, we propose a novel segmentation framework named BOTM (Bi-directional Optimal Token Matching) that performs echocardiography segmentation and optimal anatomy transportation simultaneously. Given paired echocardiographic images, BOTM learns to match two sets of discrete image tokens by finding optimal correspondences from a novel anatomical transportation perspective. We further extend the token matching into a bi-directional cross-transport attention proxy to regulate the preserved anatomical consistency within the cardiac cyclic deformation in temporal domain. Extensive experimental results show that BOTM can generate stable and accurate segmentation outcomes (e.g. -1.917 HD on CAMUS2H LV, +1.9% Dice on TED), and provide a better matching interpretation with anatomical consistency guarantee.

arxiv情報

著者 Zhihua Liu,Lei Tong,Xilin He,Che Liu,Rossella Arcucci,Chen Jin,Huiyu Zhou
発行日 2025-05-23 15:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BOTM: Echocardiography Segmentation via Bi-directional Optimal Token Matching はコメントを受け付けていません

FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation

要約

視覚言語モデル(VLM)をダウンストリームタスクに適応させるために広く採用されているパラメーター効率の高い方法としての迅速な学習。
ハードプロンプト設計にはドメインの専門知識と反復最適化が必要ですが、ソフトプロムプト方法はタスク固有のハードラベルに大きく依存しており、一般化が目に見えないカテゴリに制限されます。
最近の一般的な蒸留ベースの迅速な学習方法は、より大きな教師VLMと監視されていない知識移転を活用することにより、一般化を改善しますが、彼らの繰り返しの教師モデルのオンライン推論は、迅速な学習の固有のトレーニング効率の利点を犠牲にします。
この論文では、{\ arger {\ textbf {f}}}} aster {\ large {\ textbf {d}}}}} iStillation-{{\ large {\ textbf {b}}}}} {{{\ text}} ased {\ large {p {p {} {p {} {p {}
{\ arger {\ textbf {l}}}}獲得(\ textbf {fdbpl})は、複数のトレーニング段階でソフト監督のコンテキストを共有し、加速I/oを実装することにより、これらの問題に対処します。
さらに、FDBPLは、マルチレベルの情報を含むランダムにトリミングされた領域を完全に活用するために、デュアルポジティブネガティブプロンプトスペースを備えた地域認識プロンプト学習パラダイムを導入します。
類似性差学的学習に基づいたポジティブネガティブなスペース相互学習メカニズムを提案し、生徒のクリップモデルが弱い関連する概念を拒否することを学習しながら正しいセマンティクスを認識し、それによってゼロショットのパフォーマンスを改善することを提案します。
一般化のためにパラメーター効率を犠牲にする既存の蒸留ベースの迅速な学習方法とは異なり、FDBPLはパラメーター効率と強力な下流の一般化の二重の利点を維持します。
11のデータセットにわたる包括的な評価は、基本から新しい一般化、クロスダタセット転送、および堅牢性テストの優れたパフォーマンスを示し、$ 2.2 \ Times $のトレーニング速度を高めることができます。

要約(オリジナル)

Prompt learning as a parameter-efficient method that has been widely adopted to adapt Vision-Language Models (VLMs) to downstream tasks. While hard-prompt design requires domain expertise and iterative optimization, soft-prompt methods rely heavily on task-specific hard labels, limiting their generalization to unseen categories. Recent popular distillation-based prompt learning methods improve generalization by exploiting larger teacher VLMs and unsupervised knowledge transfer, yet their repetitive teacher model online inference sacrifices the inherent training efficiency advantage of prompt learning. In this paper, we propose {{\large {\textbf{F}}}}aster {{\large {\textbf{D}}}}istillation-{{\large {\textbf{B}}}}ased {{\large {\textbf{P}}}}rompt {{\large {\textbf{L}}}}earning (\textbf{FDBPL}), which addresses these issues by sharing soft supervision contexts across multiple training stages and implementing accelerated I/O. Furthermore, FDBPL introduces a region-aware prompt learning paradigm with dual positive-negative prompt spaces to fully exploit randomly cropped regions that containing multi-level information. We propose a positive-negative space mutual learning mechanism based on similarity-difference learning, enabling student CLIP models to recognize correct semantics while learning to reject weakly related concepts, thereby improving zero-shot performance. Unlike existing distillation-based prompt learning methods that sacrifice parameter efficiency for generalization, FDBPL maintains dual advantages of parameter efficiency and strong downstream generalization. Comprehensive evaluations across 11 datasets demonstrate superior performance in base-to-new generalization, cross-dataset transfer, and robustness tests, achieving $2.2\times$ faster training speed.

arxiv情報

著者 Zherui Zhang,Jiaxin Wu,Changwei Wang,Rongtao Xu,Longzhao Huang,Wenhao Xu,Wenbo Xu,Li Guo,Shibiao Xu
発行日 2025-05-23 15:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation はコメントを受け付けていません

Multi-Faceted Multimodal Monosemanticity

要約

人間は、ビジョン、言語、スピーチなどの複数のモダリティを通じて世界を経験し、それらの共通性と区別を探求することを自然にします。
この作業では、深いマルチモーダルモデルから抽出された解釈可能な単調な特徴を分析することにより、この質問に対処するためにデータ駆動型のアプローチを取ります。
具体的には、大規模な画像テキストペアで訓練された顕著な視覚言語表現モデルであるクリップを調査します。
シングルモーダルの解釈可能性の以前の研究に基づいて、クリップから学んだ機能を解き放ち、分析するために設計された一連のマルチモーダル解釈可能性ツールと測定を開発します。
具体的には、各クリップ機能を特定のモダリティに起因するモダリティドミナンススコア(MDS)を導入します。
次に、クリップ機能をより解釈可能な空間にマップし、ビジョン機能(シングルモーダル)、言語機能(シングルモーダル)、視覚言語機能(クロスモーダル)の3つの異なるクラスに分類できるようにします。
興味深いことに、このデータ駆動型の分類は、さまざまなモダリティの人間の直感的な理解と密接に一致しています。
さらに、このモダリティの分解は、性別検出のバイアスの削減、クロスモーダル敵対的な例の生成、テキストから画像の生成におけるモーダル固有の特徴制御を可能にするなど、複数の下流タスクに利益をもたらす可能性があることを示します。
これらの結果は、タスクに依存しない解釈可能性ツールを装備した場合、大規模なマルチモーダルモデルが、異なるデータモダリティ間の関係について貴重な洞察を提供できることを示しています。

要約(オリジナル)

Humans experience the world through multiple modalities, such as, vision, language, and speech, making it natural to explore the commonality and distinctions among them. In this work, we take a data-driven approach to address this question by analyzing interpretable, monosemantic features extracted from deep multimodal models. Specifically, we investigate CLIP, a prominent visual-language representation model trained on massive image-text pairs. Building on prior research in single-modal interpretability, we develop a set of multi-modal interpretability tools and measures designed to disentangle and analyze features learned from CLIP. Specifically, we introduce the Modality Dominance Score (MDS) to attribute each CLIP feature to a specific modality. We then map CLIP features into a more interpretable space, enabling us to categorize them into three distinct classes: vision features (single-modal), language features (single-modal), and visual-language features (cross-modal). Interestingly, this data-driven categorization closely aligns with human intuitive understandings of different modalities. We further show that this modality decomposition can benefit multiple downstream tasks, including reducing bias in gender detection, generating cross-modal adversarial examples, and enabling modal-specific feature control in text-to-image generation. These results indicate that large-scale multimodal models, when equipped with task-agnostic interpretability tools, can offer valuable insights into the relationships between different data modalities.

arxiv情報

著者 Hanqi Yan,Xiangxiang Cui,Lu Yin,Paul Pu Liang,Yulan He,Yifei Wang
発行日 2025-05-23 16:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multi-Faceted Multimodal Monosemanticity はコメントを受け付けていません

A Foundation Model Framework for Multi-View MRI Classification of Extramural Vascular Invasion and Mesorectal Fascia Invasion in Rectal Cancer

要約

背景:壁外血管浸潤(EVI)およびメソレクトル筋膜浸潤(MFI)の正確なMRIベースの同定は、直腸癌のリスク層化された管理にとって極めて重要ですが、視覚的評価は主観的で脆弱性に対して脆弱です。
目的:AxialおよびSagital T2強調MRIでEVIとMFIを自動的に分類するマルチセンターのファンデーションモデル駆動型フレームワークを開発および外部的に開発します。
方法:このレトロスペクティブ研究は、3つのヨーロッパ病院からの331の治療前の直腸がんMRI検査を使用しました。
TotalSegmentator誘導直腸パッチ抽出の後、スキャナー関連のコントラストシフトを最小限に抑えるために、自己監視された周波数ドメイン調和パイプラインが訓練されました。
4つの分類器を比較しました:ResNet50、SeresNet、普遍的な生物医学的前処理トランス(UMEDPT)が軽量MLPヘッド、フローズンUMEDPT機能(UMEDPT_LR)を使用したロジスティック回帰バリアント。
結果:UMEDPT_LRは、軸方向および矢状の特徴が融合したときに最適なEVI検出を達成しました(AUC = 0.82;感度= 0.75; F1スコア= 0.73)。
最高のMFIパフォーマンスは、軸方向に調和した画像のUMEDPTによって達成され(AUC = 0.77)、Chaimeleon Grand-Challengeの勝者(AUC = 0.75)を上回りました。
周波数ドメインの調和により、MFI分類が改善されましたが、EVIのパフォーマンスに影響を与えました。
特にF1スコアとバランスの取れた精度で、従来のCNN(ResNet50、SeresNet)がパフォーマンスが低い。
結論:これらの調査結果は、基礎モデルの特徴、調和、およびマルチビュー融合を組み合わせて、直腸MRIの診断パフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Background: Accurate MRI-based identification of extramural vascular invasion (EVI) and mesorectal fascia invasion (MFI) is pivotal for risk-stratified management of rectal cancer, yet visual assessment is subjective and vulnerable to inter-institutional variability. Purpose: To develop and externally evaluate a multicenter, foundation-model-driven framework that automatically classifies EVI and MFI on axial and sagittal T2-weighted MRI. Methods: This retrospective study used 331 pre-treatment rectal cancer MRI examinations from three European hospitals. After TotalSegmentator-guided rectal patch extraction, a self-supervised frequency-domain harmonization pipeline was trained to minimize scanner-related contrast shifts. Four classifiers were compared: ResNet50, SeResNet, the universal biomedical pretrained transformer (UMedPT) with a lightweight MLP head, and a logistic-regression variant using frozen UMedPT features (UMedPT_LR). Results: UMedPT_LR achieved the best EVI detection when axial and sagittal features were fused (AUC = 0.82; sensitivity = 0.75; F1 score = 0.73), surpassing the Chaimeleon Grand-Challenge winner (AUC = 0.74). The highest MFI performance was attained by UMedPT on axial harmonized images (AUC = 0.77), surpassing the Chaimeleon Grand-Challenge winner (AUC = 0.75). Frequency-domain harmonization improved MFI classification but variably affected EVI performance. Conventional CNNs (ResNet50, SeResNet) underperformed, especially in F1 score and balanced accuracy. Conclusion: These findings demonstrate that combining foundation model features, harmonization, and multi-view fusion significantly enhances diagnostic performance in rectal MRI.

arxiv情報

著者 Yumeng Zhang,Zohaib Salahuddin,Danial Khan,Shruti Atul Mali,Henry C. Woodruff,Sina Amirrajab,Eduardo Ibor-Crespo,Ana Jimenez-Pastor,Luis Marti-Bonmati,Philippe Lambin
発行日 2025-05-23 16:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Foundation Model Framework for Multi-View MRI Classification of Extramural Vascular Invasion and Mesorectal Fascia Invasion in Rectal Cancer はコメントを受け付けていません

Semantic Correspondence: Unified Benchmarking and a Strong Baseline

要約

セマンティック対応を確立することは、キーポイントを異なる画像間で同じセマンティック情報と一致させることを目指して、コンピュータービジョンにおける挑戦的なタスクです。
深い学習の急速な発展の恩恵を受けて、過去10年間で顕著な進歩が遂げられてきました。
ただし、このタスクの包括的なレビューと分析には不在のままです。
この論文では、セマンティック対応方法の最初の広範な調査を紹介します。
最初に、メソッド設計のタイプに基づいて既存のメソッドを分類するための分類法を提案します。
これらの方法はそれに応じて分類され、各アプローチの詳細な分析を提供します。
さらに、パフォーマンスのバリエーションを強調するための詳細な構成を備えた、さまざまなベンチマークを越えた文献のメソッドの結果を統一された比較表に集約して要約します。
さらに、セマンティックマッチングの既存の方法に関する詳細な理解を提供するために、さまざまな方法のコンポーネントの有効性を分析するために、制御された実験を徹底的に実施します。
最後に、複数のベンチマークで最先端のパフォーマンスを達成するシンプルで効果的なベースラインを提案し、この分野での将来の研究のための強固な基盤を提供します。
この調査が、将来の開発のための包括的な参照および統合ベースラインとして機能することを願っています。
コードは、https://github.com/visual-ai/semantic-corrypondenceで公開されています。

要約(オリジナル)

Establishing semantic correspondence is a challenging task in computer vision, aiming to match keypoints with the same semantic information across different images. Benefiting from the rapid development of deep learning, remarkable progress has been made over the past decade. However, a comprehensive review and analysis of this task remains absent. In this paper, we present the first extensive survey of semantic correspondence methods. We first propose a taxonomy to classify existing methods based on the type of their method designs. These methods are then categorized accordingly, and we provide a detailed analysis of each approach. Furthermore, we aggregate and summarize the results of methods in literature across various benchmarks into a unified comparative table, with detailed configurations to highlight performance variations. Additionally, to provide a detailed understanding on existing methods for semantic matching, we thoroughly conduct controlled experiments to analyse the effectiveness of the components of different methods. Finally, we propose a simple yet effective baseline that achieves state-of-the-art performance on multiple benchmarks, providing a solid foundation for future research in this field. We hope this survey serves as a comprehensive reference and consolidated baseline for future development. Code is publicly available at: https://github.com/Visual-AI/Semantic-Correspondence.

arxiv情報

著者 Kaiyan Zhang,Xinghui Li,Jingyi Lu,Kai Han
発行日 2025-05-23 16:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Correspondence: Unified Benchmarking and a Strong Baseline はコメントを受け付けていません

Forensics Adapter: Unleashing CLIP for Generalizable Face Forgery Detection

要約

Clipを効果的で一般化可能なFace Forgery Detectorに変換するように設計されたアダプターネットワークであるForensics Adapterについて説明します。
クリップは非常に用途が広いですが、偽造関連の知識には幅広い無関係な知識が巻き込まれているため、顔の偽造の検出に適応することは自明ではありません。
既存の方法は、クリップを単に特徴抽出器として扱い、タスク固有の適応を欠いているため、有効性が制限されます。
これに対処するために、アダプターを導入して、タスク固有の目的で導かれた、偽造された顔に固有のブレンド境界を導きます。
次に、クリップとアダプターを介した知識を伝える専用のインタラクション戦略で、クリップビジュアルトークンを強化します。
アダプターはクリップと並んでいるため、その汎用性は高度に保持されているため、自然にフェイスフォーリー検出における強力な一般化可能性が確保されます。
わずか5.7mのトレーニング可能なパラメーターを備えたこの方法では、5つの標準データセットで平均で約7%改善されます。
さらに、Forensics Adapter ++を説明します。これは、新たに提案された偽造迅速な迅速な学習戦略を介してテキストモダリティを組み込んだ拡張方法です。
この拡張により、元のフォレンジックアダプターよりもさらに1.3%のパフォーマンスが向上します。
提案された方法は、将来のクリップベースのFace Forgery検出方法のベースラインとして役立つと考えています。
コードはhttps://github.com/ouc-vas/forensicsadapterでリリースされています。

要約(オリジナル)

We describe Forensics Adapter, an adapter network designed to transform CLIP into an effective and generalizable face forgery detector. Although CLIP is highly versatile, adapting it for face forgery detection is non-trivial as forgery-related knowledge is entangled with a wide range of unrelated knowledge. Existing methods treat CLIP merely as a feature extractor, lacking task-specific adaptation, which limits their effectiveness. To address this, we introduce an adapter to learn face forgery traces — the blending boundaries unique to forged faces, guided by task-specific objectives. Then we enhance the CLIP visual tokens with a dedicated interaction strategy that communicates knowledge across CLIP and the adapter. Since the adapter is alongside CLIP, its versatility is highly retained, naturally ensuring strong generalizability in face forgery detection. With only 5.7M trainable parameters, our method achieves a significant performance boost, improving by approximately 7% on average across five standard datasets. Additionally, we describe Forensics Adapter++, an extended method that incorporates textual modality via a newly proposed forgery-aware prompt learning strategy. This extension leads to a further 1.3% performance boost over the original Forensics Adapter. We believe the proposed methods can serve as a baseline for future CLIP-based face forgery detection methods. The codes have been released at https://github.com/OUC-VAS/ForensicsAdapter.

arxiv情報

著者 Xinjie Cui,Yuezun Li,Delong Zhu,Jiaran Zhou,Junyu Dong,Siwei Lyu
発行日 2025-05-23 16:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Forensics Adapter: Unleashing CLIP for Generalizable Face Forgery Detection はコメントを受け付けていません

DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation

要約

制御可能なビデオ生成(CVG)は迅速に進歩していますが、複数のアクターが騒々しい制御信号の下で位置を移動、相互作用し、交換する必要がある場合、現在のシステムが流れています。
このギャップには、単一の参照画像と独立したポーズマスクストリームを長くフォトリアリスティックなビデオに変換しながら、すべてのアイデンティティを厳密に保持する最初のエンドツーエンドの拡散フレームワークであるDancetogetherで対処します。
新しいMaskposeadapterは、堅牢な追跡マスクと意味的にリッチなものと騒々しいヒートマップを融合させて、「Who」と「How」をすべての除去ステップで結合し、アイデンティティのドリフトと外観を排除します。
大規模なトレーニングと評価のために、(i)Pailefs-4k、7,000以上の異なるIDを持つ26時間のデュアルスカター映像、(ii)Humanod-robot-300、迅速なクロスドメイン転送のための1時間のヒューマノイド – ロボットインタラクションセット、(iii)bencling danceval-100のbencing bencling dance frack benchling for suting for sute for sute for sute for benchmarkを紹介します。
フィギュアスケート。
一緒になって、Dancetogetherは以前の芸術を大幅に上回っています。
さらに、1時間の微調整により、具体化されたタスクとHRIのタスクに幅広い一般化を強調している1時間の微調整により、説得力のある人間のロボットビデオが得られます。
広範なアブレーションは、これらの利益にとって永続的なアイデンティティアクション結合が重要であることを確認しています。
私たちのモデル、データセット、およびベンチマークは、CVGを単一の被験者の振り付けから構成的に制御可能なマルチアクター相互作用に持ち上げ、デジタル生産、シミュレーション、および具体化されたインテリジェンスの新しい道を開きます。
ビデオデモとコードはhttps://dancetog.github.io/で入手できます。

要約(オリジナル)

Controllable video generation (CVG) has advanced rapidly, yet current systems falter when more than one actor must move, interact, and exchange positions under noisy control signals. We address this gap with DanceTogether, the first end-to-end diffusion framework that turns a single reference image plus independent pose-mask streams into long, photorealistic videos while strictly preserving every identity. A novel MaskPoseAdapter binds ‘who’ and ‘how’ at every denoising step by fusing robust tracking masks with semantically rich-but noisy-pose heat-maps, eliminating the identity drift and appearance bleeding that plague frame-wise pipelines. To train and evaluate at scale, we introduce (i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii) HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a significant margin. Moreover, we show that a one-hour fine-tune yields convincing human-robot videos, underscoring broad generalization to embodied-AI and HRI tasks. Extensive ablations confirm that persistent identity-action binding is critical to these gains. Together, our model, datasets, and benchmark lift CVG from single-subject choreography to compositionally controllable, multi-actor interaction, opening new avenues for digital production, simulation, and embodied intelligence. Our video demos and code are available at https://DanceTog.github.io/.

arxiv情報

著者 Junhao Chen,Mingjin Chen,Jianjin Xu,Xiang Li,Junting Dong,Mingze Sun,Puhua Jiang,Hongxiang Li,Yuhang Yang,Hao Zhao,Xiaoxiao Long,Ruqi Huang
発行日 2025-05-23 16:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation はコメントを受け付けていません

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

要約

長型のビデオ理解は、広範な時間空間的な複雑さと、そのような拡張されたコンテキストの下で質問する質問の難しさのために、重要な課題を提示します。
大規模な言語モデル(LLM)は、ビデオ分析機能と長いコンテキスト処理のかなりの進歩を実証していますが、情報密度の高い1時間のビデオを処理する際には引き続き制限を示し続けています。
このような制限を克服するために、ディープビデオディスカバリーエージェントがセグメント化されたビデオクリップよりもエージェント検索戦略を活用することを提案します。
以前のビデオエージェントが手動で剛性のあるワークフローを設計することとは異なり、私たちのアプローチはエージェントの自律的な性質を強調しています。
多粒ビデオデータベースで一連の検索中心のツールを提供することにより、当社のDVDエージェントはLLMの高度な推論能力を活用して現在の観察状態を計画し、ツールを戦略的に選択し、アクションの適切なパラメーターを策定し、収集された情報の光の中で内部推論を繰り返し改善します。
システム設計全体の利点を示す複数の長いビデオ理解ベンチマークで包括的な評価を実行します。
DVDエージェントはSOTAパフォーマンスを達成し、挑戦的なLVBenchデータセットの大きなマージンで以前の作業を大幅に上回ります。
包括的なアブレーション研究と詳細なツール分析も提供されており、長期のビデオ理解タスクに合わせて調整されたインテリジェントエージェントをさらに進めるための洞察をもたらします。
コードは後でリリースされます。

要約(オリジナル)

Long-form video understanding presents significant challenges due to extensive temporal-spatial complexity and the difficulty of question answering under such extended contexts. While Large Language Models (LLMs) have demonstrated considerable advancements in video analysis capabilities and long context handling, they continue to exhibit limitations when processing information-dense hour-long videos. To overcome such limitations, we propose the Deep Video Discovery agent to leverage an agentic search strategy over segmented video clips. Different from previous video agents manually designing a rigid workflow, our approach emphasizes the autonomous nature of agents. By providing a set of search-centric tools on multi-granular video database, our DVD agent leverages the advanced reasoning capability of LLM to plan on its current observation state, strategically selects tools, formulates appropriate parameters for actions, and iteratively refines its internal reasoning in light of the gathered information. We perform comprehensive evaluation on multiple long video understanding benchmarks that demonstrates the advantage of the entire system design. Our DVD agent achieves SOTA performance, significantly surpassing prior works by a large margin on the challenging LVBench dataset. Comprehensive ablation studies and in-depth tool analyses are also provided, yielding insights to further advance intelligent agents tailored for long-form video understanding tasks. The code will be released later.

arxiv情報

著者 Xiaoyi Zhang,Zhaoyang Jia,Zongyu Guo,Jiahao Li,Bin Li,Houqiang Li,Yan Lu
発行日 2025-05-23 16:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding はコメントを受け付けていません