Hierarchical Sparse Attention Framework for Computationally Efficient Classification of Biological Cells

要約

Sparseattnnetは、画像から最も有益なピクセルのみを適応的に選択および処理する効率的な画像分類のための新しい階層的な注意駆動型フレームワークです。
従来の畳み込みニューラルネットワークは通常、情報密度に関係なく画像全体を処理し、計算の非効率性と無関係な特徴に潜在的に焦点を当てます。
私たちのアプローチは、モデルの下流層から細かい多毛注意によって蒸留された粗い注意メカニズムを活用し、モデルが損失収束の傾向に基づいてトレーニング中に適応的に学習される最も顕著なKピクセルを識別および抽出できるようにします。
トップKピクセルが選択されると、モデルはこれらのピクセルのみを処理し、セマンティクスをキャプチャするために言語モデルに単語として埋め込み、続いてグローバルコンテキストを組み込むためにマルチヘッドの注意が続きます。
生物細胞画像の場合、Sparseattnnetが完全な画像ではなくピクセルの約15%を処理できることを示します。
次のモダリティからの白血球の画像を使用した細胞分類タスクに適用されます:染色のない細胞のデジタルホログラフィからの光経路差(OPD)画像、染色のない細胞からの運動感受性(イベント)カメラからの画像、および3つのイメージングモダリティすべてについて、競争力のある精度で競争力のある精度で競争力のある精度で競争力のある精度を達成します。
従来のCNNおよび視覚変圧器と比較して、1秒あたりの動作。
モデルは生物学的に関連する領域に焦点を当てているため、説明可能性の向上も提供します。
Sparseattnnetの適応的で軽量な性質により、イメージングフローサイトメトリーを含むリソース制約のある高スループット設定での展開に最適です。

要約(オリジナル)

We present SparseAttnNet, a new hierarchical attention-driven framework for efficient image classification that adaptively selects and processes only the most informative pixels from images. Traditional convolutional neural networks typically process the entire images regardless of information density, leading to computational inefficiency and potential focus on irrelevant features. Our approach leverages a dynamic selection mechanism that uses coarse attention distilled by fine multi-head attention from the downstream layers of the model, allowing the model to identify and extract the most salient k pixels, where k is adaptively learned during training based on loss convergence trends. Once the top-k pixels are selected, the model processes only these pixels, embedding them as words in a language model to capture their semantics, followed by multi-head attention to incorporate global context. For biological cell images, we demonstrate that SparseAttnNet can process approximately 15% of the pixels instead of the full image. Applied to cell classification tasks using white blood cells images from the following modalities: optical path difference (OPD) images from digital holography for stain-free cells, images from motion-sensitive (event) camera from stain-free cells, and brightfield microscopy images of stained cells, For all three imaging modalities, SparseAttnNet achieves competitive accuracy while drastically reducing computational requirements in terms of both parameters and floating-point operations per second, compared to traditional CNNs and Vision Transformers. Since the model focuses on biologically relevant regions, it also offers improved explainability. The adaptive and lightweight nature of SparseAttnNet makes it ideal for deployment in resource-constrained and high-throughput settings, including imaging flow cytometry.

arxiv情報

著者 Elad Yoshai,Dana Yagoda-Aharoni,Eden Dotan,Natan T. Shaked
発行日 2025-05-12 15:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Hierarchical Sparse Attention Framework for Computationally Efficient Classification of Biological Cells はコメントを受け付けていません

Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization

要約

Vision-Language Models(VLMS)は、最小限のラベルデータを使用して豊富なテキスト情報を活用することにより、多様なタスク全体で顕著な成功を収めています。
ただし、特にリソースに制約のある環境では、このような大きなモデルを展開することは依然として困難です。
知識蒸留(KD)は、この問題に対する確立された解決策を提供します。
ただし、VLMSからの最近のKDアプローチには、多くの場合、マルチステージトレーニングまたは追加のチューニングが含まれ、計算オーバーヘッドと最適化の複雑さが増加します。
この論文では、$ \ mathbf {\ texttt {d}} $ ual-$ \ mathbf {\ texttt {h}} $ ead $ \ mathbf {\ texttt {o}} $ ptimization($ \ mathbf {\ textt {\ dho {dho wcred} a $ frame)} $ frame)を提案します。
VLMSから、半監視設定のコンパクトなタスク固有のモデルまで。
具体的には、ラベル付きのデータと教師の予測から独立して学習し、推論中に出力を直線的に結合することを提案するデュアル予測ヘッドを導入します。
$ \ texttt {dho} $は、監視された信号と蒸留信号の間の勾配的な競合を軽減し、シングルヘッドKDベースラインよりも効果的な機能学習を可能にすることを観察します。
その結果、広範な実験では、$ \ texttt {dho} $が、複数のドメインと細粒データセットのベースラインを一貫して上回ることが示されています。
特に、Imagenetでは、最先端のパフォーマンスを達成し、1%と10%のラベル付きデータでそれぞれ3%と0.1%を改善し、パラメーターを使用します。

要約(オリジナル)

Vision-language models (VLMs) have achieved remarkable success across diverse tasks by leveraging rich textual information with minimal labeled data. However, deploying such large models remains challenging, particularly in resource-constrained environments. Knowledge distillation (KD) offers a well-established solution to this problem; however, recent KD approaches from VLMs often involve multi-stage training or additional tuning, increasing computational overhead and optimization complexity. In this paper, we propose $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization ($\mathbf{\texttt{DHO}}$) — a simple yet effective KD framework that transfers knowledge from VLMs to compact, task-specific models in semi-supervised settings. Specifically, we introduce dual prediction heads that independently learn from labeled data and teacher predictions, and propose to linearly combine their outputs during inference. We observe that $\texttt{DHO}$ mitigates gradient conflicts between supervised and distillation signals, enabling more effective feature learning than single-head KD baselines. As a result, extensive experiments show that $\texttt{DHO}$ consistently outperforms baselines across multiple domains and fine-grained datasets. Notably, on ImageNet, it achieves state-of-the-art performance, improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively, while using fewer parameters.

arxiv情報

著者 Seongjae Kang,Dong Bok Lee,Hyungjoon Jang,Sung Ju Hwang
発行日 2025-05-12 15:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization はコメントを受け付けていません

ABS-Mamba: SAM2-Driven Bidirectional Spiral Mamba Network for Medical Image Translation

要約

正確なマルチモーダル医療画像翻訳には、HAを採用するグローバルな解剖学的セマンティクスと局所的な構造的忠実度が必要です。これは、間モダリティ情報の損失と構造的歪みによって複雑な課題です。
ABS-MAMBAは、オルガン認識のセマンティック表現のためのモデル2(SAM2)、モダリティ固有のエッジとテクスチャーの詳細を維持するための特殊な畳み込みニューラルネットワーク(CNN)、および効率的な長期および短距離の特徴を保存するためのMAMBAの選択的状態空間モデリングのためのモデル2(SAM2)を統合する新しいアーキテクチャであるABS-Mambaを提案します。
構造的には、デュアル解像度のフレームワークはSAM2の画像エンコーダーを活用して高解像度の入力からオルガンスケールのセマンティクスをキャプチャし、並列CNNSブランチはきめ細かい局所的な特徴を抽出します。
堅牢な特徴Fusionネットワーク(RFFN)は、これらのepresentationを統合し、スパイラルスキャンおよび双方向の状態空間ダイナミクスを使用して、双方向MAMBA残差ネットワーク(BMRN)モデルの空間依存関係をモデル化します。
3段階のスキップ融合デコーダーは、エッジとテクスチャの忠実度を高めます。
事前に訓練されたコンポーネントの基礎能力を維持しながら、正確なドメインの専門化を可能にするために、効率的な低ランク適応(LORA+)微調整を採用しています。
Synthrad2023およびBrats2019データセットに関する広範な実験的検証は、ABS-Mambaが最先端の方法を上回り、臨床アプリケーションの診断精度を高めるために解剖学的セマンティクスと構造の詳細を保存する高忠実度のクロスモーダル合成を提供することを示しています。
このコードは、https://github.com/gatina-yone/abs-mambaで入手できます

要約(オリジナル)

Accurate multi-modal medical image translation requires ha-rmonizing global anatomical semantics and local structural fidelity, a challenge complicated by intermodality information loss and structural distortion. We propose ABS-Mamba, a novel architecture integrating the Segment Anything Model 2 (SAM2) for organ-aware semantic representation, specialized convolutional neural networks (CNNs) for preserving modality-specific edge and texture details, and Mamba’s selective state-space modeling for efficient long- and short-range feature dependencies. Structurally, our dual-resolution framework leverages SAM2’s image encoder to capture organ-scale semantics from high-resolution inputs, while a parallel CNNs branch extracts fine-grained local features. The Robust Feature Fusion Network (RFFN) integrates these epresentations, and the Bidirectional Mamba Residual Network (BMRN) models spatial dependencies using spiral scanning and bidirectional state-space dynamics. A three-stage skip fusion decoder enhances edge and texture fidelity. We employ Efficient Low-Rank Adaptation (LoRA+) fine-tuning to enable precise domain specialization while maintaining the foundational capabilities of the pre-trained components. Extensive experimental validation on the SynthRAD2023 and BraTS2019 datasets demonstrates that ABS-Mamba outperforms state-of-the-art methods, delivering high-fidelity cross-modal synthesis that preserves anatomical semantics and structural details to enhance diagnostic accuracy in clinical applications. The code is available at https://github.com/gatina-yone/ABS-Mamba

arxiv情報

著者 Feng Yuan,Yifan Gao,Wenbin Wu,Keqing Wu,Xiaotong Guo,Jie Jiang,Xin Gao
発行日 2025-05-12 15:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | ABS-Mamba: SAM2-Driven Bidirectional Spiral Mamba Network for Medical Image Translation はコメントを受け付けていません

Anatomical Attention Alignment representation for Radiology Report Generation

要約

Automated Radiology Report Generation(RRG)は、医療画像の詳細な説明を作成し、放射線科医のワークロードを減らし、高品質の診断サービスへのアクセスを改善することを目的としています。
既存のエンコーダーデコーダーモデルは、生の入力画像から抽出された視覚的な機能にのみ依存しており、空間構造とセマンティック関係の理解を制限し、しばしば最適ではないテキスト生成をもたらすことができます。
これに対処するために、ハイパービジュアル表現を構築することで視覚的なテキスト理解を高めるフレームワークである解剖学的注意アラインメントネットワーク(A3NET)を提案します。
私たちのアプローチでは、解剖学的構造の知識辞書をパッチレベルの視覚的特徴と統合し、モデルが対応する解剖学的エンティティと効果的にイメージ領域を効果的に関連付けることができます。
この構造化された表現は、セマンティックな推論、解釈可能性、および相互整合性を改善し、最終的に生成されたレポートの精度と臨床的関連性を高めます。
IU X線およびMIMIC-CXRデータセットの実験結果は、A3NETが視覚的知覚とテキスト生成の品質の両方を大幅に改善することを示しています。
私たちのコードは、\ href {https://github.com/vinh-ai/a3net} {github}で入手できます。

要約(オリジナル)

Automated Radiology report generation (RRG) aims at producing detailed descriptions of medical images, reducing radiologists’ workload and improving access to high-quality diagnostic services. Existing encoder-decoder models only rely on visual features extracted from raw input images, which can limit the understanding of spatial structures and semantic relationships, often resulting in suboptimal text generation. To address this, we propose Anatomical Attention Alignment Network (A3Net), a framework that enhance visual-textual understanding by constructing hyper-visual representations. Our approach integrates a knowledge dictionary of anatomical structures with patch-level visual features, enabling the model to effectively associate image regions with their corresponding anatomical entities. This structured representation improves semantic reasoning, interpretability, and cross-modal alignment, ultimately enhancing the accuracy and clinical relevance of generated reports. Experimental results on IU X-Ray and MIMIC-CXR datasets demonstrate that A3Net significantly improves both visual perception and text generation quality. Our code is available at \href{https://github.com/Vinh-AI/A3Net}{GitHub}.

arxiv情報

著者 Quang Vinh Nguyen,Minh Duc Nguyen,Thanh Hoang Son Vo,Hyung-Jeong Yang,Soo-Hyung Kim
発行日 2025-05-12 15:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anatomical Attention Alignment representation for Radiology Report Generation はコメントを受け付けていません

Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models

要約

この研究の目的は、マルチドメインタスク増分学習〜(mtil)の問題に対処することを目的としています。これには、ビジョン言語モデル〜(VLM)が、固有のゼロショット認識能力を維持しながら、新しい知識を継続的に取得する必要があります。
既存のパラダイムは、目に見えないドメインサンプルのテストを元のクリップに委任します。これは、モデルのゼロショット機能の分解を防ぐだけでなく、VLMの一般化をさらに強化することができません。
この目的のために、2つのコアモジュールで構成されるAFAという名前の新しいmTILフレームワークを提案します。(1)VLMSのゼロショット認識能力を高めるための増分タスクの各データセットのタスク不変の情報を学習するフォワード焦点アダプターに対して。
(2)増分学習をサポートしながらVLMの少数の学習能力を強化する後方焦点焦げアダプターに反対します。
広範な実験は、AFAメソッドが、特に少ないショットのMTILタスクで既存の最先端のアプローチを大幅に上回り、転送可能性の点でクリップの固有のゼロショットパフォーマンスを上回ることを示しています。
コードは補足資料で提供されます。

要約(オリジナル)

This study aims to address the problem of multi-domain task incremental learning~(MTIL), which requires that vision-language models~(VLMs) continuously acquire new knowledge while maintaining their inherent zero-shot recognition capability. Existing paradigms delegate the testing of unseen-domain samples to the original CLIP, which only prevents the degradation of the model’s zero-shot capability but fails to enhance the generalization of the VLM further. To this end, we propose a novel MTIL framework, named AFA, which comprises two core modules: (1) an against forward-forgetting adapter that learns task-invariant information for each dataset in the incremental tasks to enhance the zero-shot recognition ability of VLMs; (2) an against backward-forgetting adapter that strengthens the few-shot learning capability of VLMs while supporting incremental learning. Extensive experiments demonstrate that the AFA method significantly outperforms existing state-of-the-art approaches, especially in few-shot MTIL tasks, and surpasses the inherent zero-shot performance of CLIP in terms of transferability. The code is provided in the Supplementary Material.

arxiv情報

著者 Songlin Dong,Chenhao Ding,Jiangyang Li,Jizhou Han,Qiang Wang,Yuhang He,Yihong Gong
発行日 2025-05-12 15:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models はコメントを受け付けていません

Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation

要約

半教師の学習は、完全に監視されたアプローチの制限に対処するために、モデルのパフォーマンスを向上させるために非標識データを活用します。
その戦略の中で、擬似監督は非常に効果的であることが証明されており、通常、学生ネットワークをトレーニングする前に1つまたは複数の教師ネットワークに依存して擬似ラベルを改良しています。
擬似監督の一般的な慣行は、事前に定義された信頼性のしきい値またはエントロピーに基づいて擬似ラベルをフィルタリングすることです。
ただし、最適なしきい値を選択するには、現実世界の監視シナリオではしばしば希少な大きなラベル付きデータセットが必要です。
この課題を克服するために、擬似ラベル選択のための動的なフィードバック駆動型のしきい値戦略であるアンサンブルオブコンフィデンス強化(ENCORE)を提案します。
静的な信頼性のしきい値に依存する代わりに、アンコールは、ラベルのないデータセット内のクラスごとの真の陽性信頼性を推定し、異なるレベルの擬似ラベルフィルタリングに対するモデルの応答に基づいてしきい値を継続的に調整します。
このフィードバック駆動型メカニズムは、信頼できないものをフィルタリングしながら、有益な擬似ラベルの保持を保証し、手動のしきい値調整なしのモデルトレーニングを強化します。
この方法は、既存の擬似スーパービジョンフレームワークにシームレスに統合され、特にデータスカース条件でのセグメンテーションパフォーマンスを大幅に改善します。
広範な実験では、Encoreと既存の擬似スーパービジョンフレームワークを統合することで、複数のデータセットとネットワークアーキテクチャにわたってパフォーマンスが向上し、半教師の学習における有効性が検証されることが示されています。

要約(オリジナル)

Semi-supervised learning leverages unlabeled data to enhance model performance, addressing the limitations of fully supervised approaches. Among its strategies, pseudo-supervision has proven highly effective, typically relying on one or multiple teacher networks to refine pseudo-labels before training a student network. A common practice in pseudo-supervision is filtering pseudo-labels based on pre-defined confidence thresholds or entropy. However, selecting optimal thresholds requires large labeled datasets, which are often scarce in real-world semi-supervised scenarios. To overcome this challenge, we propose Ensemble-of-Confidence Reinforcement (ENCORE), a dynamic feedback-driven thresholding strategy for pseudo-label selection. Instead of relying on static confidence thresholds, ENCORE estimates class-wise true-positive confidence within the unlabeled dataset and continuously adjusts thresholds based on the model’s response to different levels of pseudo-label filtering. This feedback-driven mechanism ensures the retention of informative pseudo-labels while filtering unreliable ones, enhancing model training without manual threshold tuning. Our method seamlessly integrates into existing pseudo-supervision frameworks and significantly improves segmentation performance, particularly in data-scarce conditions. Extensive experiments demonstrate that integrating ENCORE with existing pseudo-supervision frameworks enhances performance across multiple datasets and network architectures, validating its effectiveness in semi-supervised learning.

arxiv情報

著者 Negin Ghamsarian,Sahar Nasirihaghighi,Klaus Schoeffmann,Raphael Sznitman
発行日 2025-05-12 15:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation はコメントを受け付けていません

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

要約

実際の画像がどのように見えるかを測定することは、人工知能研究の複雑なタスクです。
たとえば、砂漠で掃除機を塗った少年の画像は、常識に違反します。
大規模なビジョン言語モデル(LVLMS)とトランスベースのエンコーダを使用して、画像の常識の一貫性を評価するために、見た目ガラス(TLG)を通して呼び出す新しい方法を紹介します。
LVLMを活用してこれらの画像からアトミックファクトを抽出することにより、正確な事実の組み合わせを取得します。
エンコードされたアトミックファクトを介して、コンパクトな注意プーリング分類器を微調整します。
私たちのTLGは、フープで新しい最先端のパフォーマンスを達成しました!
コンパクトな微調整コンポーネントを活用しながら、奇妙なデータセット。

要約(オリジナル)

Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

arxiv情報

著者 Elisei Rykov,Kseniia Petrushina,Kseniia Titova,Anton Razzhigaev,Alexander Panchenko,Vasily Konovalov
発行日 2025-05-12 16:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images はコメントを受け付けていません

Hybrid Spiking Vision Transformer for Object Detection with Event Cameras

要約

イベントベースのオブジェクト検出は、高い時間分解能、広いダイナミックレンジ、非同期アドレスイベント表現などの利点により、注目を集めています。
これらの利点を活用して、スパイクニューラルネットワーク(SNN)が有望なアプローチとして浮上し、低エネルギー消費と豊富な時空ダイナミクスを提供しています。
イベントベースのオブジェクト検出のパフォーマンスをさらに強化するために、この研究では、新しいハイブリッドスパイクビジョントランス(HSVT)モデルを提案しています。
HSVTモデルは、空間機能抽出モジュールを統合してローカルおよびグローバルな特徴をキャプチャし、時間的特徴抽出モジュールをイベントシーケンスの時間依存性と長期パターンをモデル化します。
この組み合わせにより、HSVTは時空間的な機能をキャプチャし、複雑なイベントベースのオブジェクト検出タスクを処理する機能を改善します。
この分野での研究をサポートするために、イベントベースのオブジェクト検出タスクのベンチマークとして、Fall Detection Datasetを開発および公開しました。
イベントベースのカメラを使用してキャプチャされたこのデータセットは、フェイシャルプライバシーの保護を保証し、イベント表現形式のためにメモリの使用を削減します。
さまざまなモデルサイズにわたってGen1およびFall検出データセットのHSVTモデルを評価しました。
実験結果は、HSVTがパラメーターが少ないイベント検出の大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Event-based object detection has gained increasing attention due to its advantages such as high temporal resolution, wide dynamic range, and asynchronous address-event representation. Leveraging these advantages, Spiking Neural Networks (SNNs) have emerged as a promising approach, offering low energy consumption and rich spatiotemporal dynamics. To further enhance the performance of event-based object detection, this study proposes a novel hybrid spike vision Transformer (HsVT) model. The HsVT model integrates a spatial feature extraction module to capture local and global features, and a temporal feature extraction module to model time dependencies and long-term patterns in event sequences. This combination enables HsVT to capture spatiotemporal features, improving its capability to handle complex event-based object detection tasks. To support research in this area, we developed and publicly released The Fall Detection Dataset as a benchmark for event-based object detection tasks. This dataset, captured using an event-based camera, ensures facial privacy protection and reduces memory usage due to the event representation format. We evaluated the HsVT model on GEN1 and Fall Detection datasets across various model sizes. Experimental results demonstrate that HsVT achieves significant performance improvements in event detection with fewer parameters.

arxiv情報

著者 Qi Xu,Jie Deng,Jiangrong Shen,Biwu Chen,Huajin Tang,Gang Pan
発行日 2025-05-12 16:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hybrid Spiking Vision Transformer for Object Detection with Event Cameras はコメントを受け付けていません

Gameplay Highlights Generation

要約

この作業では、ゲームプレイセッションから人目を引くハイライトリールを自動的に生成することにより、ゲーマーがソーシャルメディアでゲームエクスペリエンスを共有できるようになります。
興味深いイベントが発生したビデオの間隔を最初に識別し、それを連結することにより、ハイライト生成の問題にアプローチします。
Via Video Antatorを使用して人間が注釈した興味深いイベントを含む社内のゲームプレイイベント検出データセットを開発しました。
ゲームエンジンの統合など、検出を強調するための従来の手法には、ゲーム開発者との高価なコラボレーションが必要です。
特定の画像またはテキストのパッチを検出するOCRテクニックは、ゲームエンジニアリングごとに高価なものを必要とし、ゲームUIや異なる言語に一般化できない場合があります。
ゲームエンジニアリングなしでジャンルの複数のゲームに一般化するデータセットを使用して、X-Clipなどのマルチモーダル汎用ビデオ理解モデルを獲得しました。
このマルチモーダルモデルの分類パフォーマンスを改善するために、プロンプトエンジニアリングが実行されました。
私たちの評価は、このような微調ューされたモデルが、90%以上の精度で目に見えないゲームプレイ映像からゲームを撮影する一人称の興味深いイベントを検出できることを示しました。
さらに、私たちのモデルは、高リソースゲームと一緒にトレーニングされたときに、低リソースゲーム(小さなデータセット)で大幅に優れたパフォーマンスを発揮し、転送学習の兆候を示しています。
モデルの生産を準備するために、ONNXライブラリを使用して、クロスプラットフォームの推論を可能にしました。
これらのライブラリは、モデルのサイズと展開時間を短縮するためのトレーニング後の量子化ツールも提供します。
DirectMLバックエンドを備えたONNXランタイムライブラリを使用して、Windows OSで効率的な推論を実行しました。
X-Clipモデルの自然言語の監督が、データ効率が高くパフォーマンスの高いビデオ認識モデルにつながることを示しています。

要約(オリジナル)

In this work, we enable gamers to share their gaming experience on social media by automatically generating eye-catching highlight reels from their gameplay session Our automation will save time for gamers while increasing audience engagement. We approach the highlight generation problem by first identifying intervals in the video where interesting events occur and then concatenate them. We developed an in-house gameplay event detection dataset containing interesting events annotated by humans using VIA video annotator. Traditional techniques for highlight detection such as game engine integration requires expensive collaboration with game developers. OCR techniques which detect patches of specific images or texts require expensive per game engineering and may not generalize across game UI and different language. We finetuned a multimodal general purpose video understanding model such as X-CLIP using our dataset which generalizes across multiple games in a genre without per game engineering. Prompt engineering was performed to improve the classification performance of this multimodal model. Our evaluation showed that such a finetuned model can detect interesting events in first person shooting games from unseen gameplay footage with more than 90% accuracy. Moreover, our model performed significantly better on low resource games (small dataset) when trained along with high resource games, showing signs of transfer learning. To make the model production ready, we used ONNX libraries to enable cross platform inference. These libraries also provide post training quantization tools to reduce model size and inference time for deployment. ONNX runtime libraries with DirectML backend were used to perform efficient inference on Windows OS. We show that natural language supervision in the X-CLIP model leads to data efficient and highly performant video recognition models.

arxiv情報

著者 Vignesh Edithal,Le Zhang,Ilia Blank,Imran Junejo
発行日 2025-05-12 16:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gameplay Highlights Generation はコメントを受け付けていません

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

要約

AI-合成面を検出することは、重要な課題を提示します。多様な生成技術にわたって、顔面地域間の一貫した構造的関係を捉えることは困難です。
基本的な矛盾ではなく特定のアーティファクトに焦点を当てた現在の方法は、新しい生成モデルに直面したときにしばしば失敗します。
この制限に対処するために、堅牢な顔の偽造検出のために設計されたビジョントランスであるレイヤーアウェアマスク変調視界変圧器(LAMM-vit)を導入します。
このモデルは、各レイヤー内の異なる領域誘導マルチヘッド注意(RG-MHA)とレイヤーアウェアマスク変調(LAMM)コンポーネントを統合します。
RG-MHAは、フェイシャルランドマークを利用して地域の注意マスクを作成し、さまざまな顔の領域で建築的矛盾を精査するためにモデルを導きます。
重要なことに、個別のLAMMモジュールは、ネットワークコンテキストに基づいて、マスクの重みやゲーティング値を含む層固有のパラメーターを動的に生成します。
次に、これらのパラメーターはRG-MHAの動作を変調し、ネットワークの深さにわたる地域の焦点の適応調整を可能にします。
このアーキテクチャは、GANや拡散モデルなどの多様な生成技術の中で遍在する、微妙で階層的な偽造の手がかりのキャプチャを促進します。
クロスモデル一般化テストでは、LAMM-vitは優れたパフォーマンスを示し、94.09%の平均ACC(SOTAよりもA +5.45%の改善)と98.62%の平均AP(A +3.09%の改善)を達成します。
これらの結果は、LAMM-vitの一般化する例外的な能力と、進化する合成メディアの脅威に対する信頼できる展開の可能性を示しています。

要約(オリジナル)

Detecting AI-synthetic faces presents a critical challenge: it is hard to capture consistent structural relationships between facial regions across diverse generation techniques. Current methods, which focus on specific artifacts rather than fundamental inconsistencies, often fail when confronted with novel generative models. To address this limitation, we introduce Layer-aware Mask Modulation Vision Transformer (LAMM-ViT), a Vision Transformer designed for robust facial forgery detection. This model integrates distinct Region-Guided Multi-Head Attention (RG-MHA) and Layer-aware Mask Modulation (LAMM) components within each layer. RG-MHA utilizes facial landmarks to create regional attention masks, guiding the model to scrutinize architectural inconsistencies across different facial areas. Crucially, the separate LAMM module dynamically generates layer-specific parameters, including mask weights and gating values, based on network context. These parameters then modulate the behavior of RG-MHA, enabling adaptive adjustment of regional focus across network depths. This architecture facilitates the capture of subtle, hierarchical forgery cues ubiquitous among diverse generation techniques, such as GANs and Diffusion Models. In cross-model generalization tests, LAMM-ViT demonstrates superior performance, achieving 94.09% mean ACC (a +5.45% improvement over SoTA) and 98.62% mean AP (a +3.09% improvement). These results demonstrate LAMM-ViT’s exceptional ability to generalize and its potential for reliable deployment against evolving synthetic media threats.

arxiv情報

著者 Jiangling Zhang,Weijie Zhu,Jirui Huang,Yaxiong Chen
発行日 2025-05-12 16:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention はコメントを受け付けていません