DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images

要約

このペーパーでは、Clip-vitおよびFusion学習を使用してAIに生成された画像を検出するための新しいフレームワークであるDeeClipを紹介します。
高度に光リアリスティックな画像を作成できる生成モデルの大幅な進歩にもかかわらず、既存の検出方法はしばしば異なるモデルで一般化するのに苦労し、軽微な摂動に非常に敏感です。
これらの課題に対処するために、DeeClipには、高レベルと低レベルの機能を組み合わせた融合モジュールであるDeeFuserが組み込まれ、圧縮やぼやけなどの分解に対する堅牢性が向上します。
さらに、トリプレットの損失を適用して埋め込みスペースを改良し、実際のコンテンツと合成含有量を区別するモデルの能力を高めます。
事前に訓練された知識を維持しながら軽量適応をさらに有効にするために、クリップビットバックボーン内で低ランク適応(LORA)を使用してパラメーター効率の高い微調整を採用します。
このアプローチは、一般化を犠牲にすることなく、効果的なゼロショット学習をサポートします。
4クラスのProganデータのみで訓練されたDeeClipは、生成敵対的ネットワーク(GAN)および拡散モデルで構成される19のテストサブセットで89.00%の平均精度を達成します。
トレーニング可能なパラメーターが少ないにもかかわらず、DeeClipは既存の方法を上回り、さまざまな生成モデルと実際の歪みに対する優れた堅牢性を示しています。
このコードは、研究目的でhttps://github.com/mamadou-keita/deeclipで公開されています。

要約(オリジナル)

This paper introduces DeeCLIP, a novel framework for detecting AI-generated images using CLIP-ViT and fusion learning. Despite significant advancements in generative models capable of creating highly photorealistic images, existing detection methods often struggle to generalize across different models and are highly sensitive to minor perturbations. To address these challenges, DeeCLIP incorporates DeeFuser, a fusion module that combines high-level and low-level features, improving robustness against degradations such as compression and blurring. Additionally, we apply triplet loss to refine the embedding space, enhancing the model’s ability to distinguish between real and synthetic content. To further enable lightweight adaptation while preserving pre-trained knowledge, we adopt parameter-efficient fine-tuning using low-rank adaptation (LoRA) within the CLIP-ViT backbone. This approach supports effective zero-shot learning without sacrificing generalization. Trained exclusively on 4-class ProGAN data, DeeCLIP achieves an average accuracy of 89.00% on 19 test subsets composed of generative adversarial network (GAN) and diffusion models. Despite having fewer trainable parameters, DeeCLIP outperforms existing methods, demonstrating superior robustness against various generative models and real-world distortions. The code is publicly available at https://github.com/Mamadou-Keita/DeeCLIP for research purposes.

arxiv情報

著者 Mamadou Keita,Wassim Hamidouche,Hessen Bougueffa Eutamene,Abdelmalik Taleb-Ahmed,Abdenour Hadid
発行日 2025-04-28 15:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images はコメントを受け付けていません

Using Fixed and Mobile Eye Tracking to Understand How Visitors View Art in a Museum: A Study at the Bowes Museum, County Durham, UK

要約

次の論文では、ダーラム大学の研究者が関与する共同プロジェクトと、英国ダーラムのバーナード城にあるボウズ博物館の専門家について説明します。その間に、訪問者がアートをどのように見るかを理解するために固定およびモバイルアイトラッキングを使用しました。
私たちの研究は2024年夏に開催され、DH2017で発表された作業に基づいています(Bailey-Ross et al。、2017)。
学際的なチームには、デジタル人文科学、心理学、美術史、コンピューターサイエンスの研究者が含まれ、博物館の専門家と協力して働いていました。
博物館の訪問者が物理的なギャラリーの設定でアートをどのように見るかを理解するために、固定およびモバイルアイトラッキングを使用しました。
この研究により、博物館のコレクションをより効果的に表示する方法について推奨することができ、訪問者がより完全に関与することを奨励することができます。

要約(オリジナル)

The following paper describes a collaborative project involving researchers at Durham University, and professionals at the Bowes Museum, Barnard Castle, County Durham, UK, during which we used fixed and mobile eye tracking to understand how visitors view art. Our study took place during summer 2024 and builds on work presented at DH2017 (Bailey-Ross et al., 2017). Our interdisciplinary team included researchers from digital humanities, psychology, art history and computer science, working in collaboration with professionals from the museum. We used fixed and mobile eye tracking to understand how museum visitors view art in a physical gallery setting. This research will enable us to make recommendations about how the Museum’s collections could be more effectively displayed, encouraging visitors to engage with them more fully.

arxiv情報

著者 Claire Warwick,Andrew Beresford,Soazig Casteau,Hubert P. H. Shum,Dan Smith,Francis Xiatian Zhang
発行日 2025-04-28 15:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Using Fixed and Mobile Eye Tracking to Understand How Visitors View Art in a Museum: A Study at the Bowes Museum, County Durham, UK はコメントを受け付けていません

Federated Out-of-Distribution Generalization: A Causal Augmentation View

要約

Federated Learningは、マルチソース情報を統合して、すべてのクライアントデータを一般化できるモデルを取得することにより、共同モデルを目指しています。
既存の方法は、多くの場合、知識の蒸留またはデータ増強を活用して、クライアント間のデータバイアスのマイナスの影響を軽減します。
ただし、分散分布サンプルでの教師モデルの限られたパフォーマンスと、増強されたデータと元のデータの固有の品質ギャップは、それらの有効性を妨げており、通常、豊富なコンテキスト情報を組み込むことの利点を活用できません。
これらの制限に対処するために、このペーパーでは、属性とカテゴリの間の偽の相関を破るために因果関係に触発されたデータ増強を採用しているFedCaugと呼ばれるフェデレーション因果拡張法を提案します。
具体的には、因果領域のローカリゼーションモジュールを設計して、画像内の背景とオブジェクトを正確に識別および分離し、因果データ増強のための豊富なコンテキスト情報を提供します。
さらに、因果関係の特徴とクライアント内のコンテキストを統合して反事実的なサンプルを生成する因果関係に触発されたデータ増強モジュールを設計します。
これにより、データの多様性が大幅に向上し、プロセス全体ではクライアント間の情報共有は必要ありません。これにより、データプライバシーの保護に貢献します。
3つのデータセットで実施された広範な実験により、FedCaugはモデルのバックグラウンドへの依存を著しく減らしてサンプルラベルを予測し、最新の方法と比較して優れたパフォーマンスを達成することが明らかになりました。

要約(オリジナル)

Federated learning aims to collaboratively model by integrating multi-source information to obtain a model that can generalize across all client data. Existing methods often leverage knowledge distillation or data augmentation to mitigate the negative impact of data bias across clients. However, the limited performance of teacher models on out-of-distribution samples and the inherent quality gap between augmented and original data hinder their effectiveness and they typically fail to leverage the advantages of incorporating rich contextual information. To address these limitations, this paper proposes a Federated Causal Augmentation method, termed FedCAug, which employs causality-inspired data augmentation to break the spurious correlation between attributes and categories. Specifically, it designs a causal region localization module to accurately identify and decouple the background and objects in the image, providing rich contextual information for causal data augmentation. Additionally, it designs a causality-inspired data augmentation module that integrates causal features and within-client context to generate counterfactual samples. This significantly enhances data diversity, and the entire process does not require any information sharing between clients, thereby contributing to the protection of data privacy. Extensive experiments conducted on three datasets reveal that FedCAug markedly reduces the model’s reliance on background to predict sample labels, achieving superior performance compared to state-of-the-art methods.

arxiv情報

著者 Runhui Zhang,Sijin Zhou,Zhuang Qi
発行日 2025-04-28 15:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Federated Out-of-Distribution Generalization: A Causal Augmentation View はコメントを受け付けていません

Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking

要約

歩行者、サイクリスト、バイクなどの小型の閉塞されたオブジェクトの検出と追跡は、不安定な動き、頻繁な閉塞、動的な都市環境での視界が不十分であるため、交通監視システムに大きな課題をもたらします。
Yolo11のような従来の方法は、正確な検出のための空間的特徴抽出に習熟していますが、特にリアルタイムのデータの更新とリソース効率の処理において、これらの小さく動的に動くオブジェクトと闘うことがよくあります。
このペーパーでは、これらの制限に対処するために動的グラフニューラルネットワーク(DGNNS)とYOLO11を統合する新しいフレームワークであるDGNN-Yoloを紹介します。
標準のGNNとは異なり、DGNNは、グラフ構造をリアルタイムで動的に更新する優れた能力のために選択されます。これにより、非常に可変性の高い都市交通シナリオでオブジェクトの適応的かつ堅牢な追跡が可能になります。
このフレームワークは、グラフ表現を構築して定期的に更新し、ノードとしてオブジェクトをキャプチャし、その相互作用をエッジとしてキャプチャし、急速に変化する条件に効果的に応答します。
さらに、DGNN-YOLOには、Grad-CAM、Grad-CAM ++、およびEigen-CAMの視覚化技術が組み込まれており、解釈可能性を高め、信頼を促進し、モデルの意思決定プロセスに関する洞察を提供します。
広範な実験は、フレームワークのパフォーマンスを検証し、0.8382、0.6875、およびMap@0.5:0.95のリコールを0.6476のリコールを達成し、既存の方法を大幅に上回ります。
この研究は、リアルタイムのトラフィックサーベイランスのためのスケーラブルで解釈可能なソリューションを提供し、小規模で閉塞されたオブジェクトを検出および追跡するという重要な課題に対処することにより、インテリジェントな輸送システムの機能を大幅に進めます。

要約(オリジナル)

The detection and tracking of small, occluded objects such as pedestrians, cyclists, and motorbikes pose significant challenges for traffic surveillance systems because of their erratic movement, frequent occlusion, and poor visibility in dynamic urban environments. Traditional methods like YOLO11, while proficient in spatial feature extraction for precise detection, often struggle with these small and dynamically moving objects, particularly in handling real-time data updates and resource efficiency. This paper introduces DGNN-YOLO, a novel framework that integrates dynamic graph neural networks (DGNNs) with YOLO11 to address these limitations. Unlike standard GNNs, DGNNs are chosen for their superior ability to dynamically update graph structures in real-time, which enables adaptive and robust tracking of objects in highly variable urban traffic scenarios. This framework constructs and regularly updates its graph representations, capturing objects as nodes and their interactions as edges, thus effectively responding to rapidly changing conditions. Additionally, DGNN-YOLO incorporates Grad-CAM, Grad-CAM++, and Eigen-CAM visualization techniques to enhance interpretability and foster trust, offering insights into the model’s decision-making process. Extensive experiments validate the framework’s performance, achieving a precision of 0.8382, recall of 0.6875, and mAP@0.5:0.95 of 0.6476, significantly outperforming existing methods. This study offers a scalable and interpretable solution for real-time traffic surveillance and significantly advances intelligent transportation systems’ capabilities by addressing the critical challenge of detecting and tracking small, occluded objects.

arxiv情報

著者 Shahriar Soudeep,Md Abrar Jahin,M. F. Mridha
発行日 2025-04-28 15:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking はコメントを受け付けていません

Enhancing breast cancer detection on screening mammogram using self-supervised learning and a hybrid deep model of Swin Transformer and Convolutional Neural Network

要約

目的:高品質のキュレートされた標識医療訓練データの希少性は、乳がん診断に人工知能(AI)システムを適用することにおける主要な制限の1つです。
マンモグラム分析と質量(またはマイクロ計算)の検出のための深いモデルには、多くの場合、収集するのに時間がかかり、時間がかかる大量のラベル付き画像でトレーニングが必要です。
この課題を減らすために、局所的な自己触媒と細粒の特徴抽出を組み合わせてマンモグラムのスクリーニング時の乳がん検出を強化する\ textBf {hybmnet}という名前の自己科学学習(SSL)とディープハイブリッドモデルを活用する新しい方法を提案しました。
アプローチ:私たちの方法では、2段階の学習プロセスを採用しています。(1)SSL Pretraining:SSL技術であるESVITを利用して、限られたマンモグラムを使用してSWINトランス(SWIN-T)を取得します。
その後、前提条件のSwin-Tは、下流タスクのバックボーンとして機能します。
(2)ダウンストリームトレーニング:提案されたHybMnetは、SWIN-TバックボーンとCNNベースのネットワークと新しい融合戦略を組み合わせています。
SWIN-Tは、局所的な自己関節を採用して、高解像度マンモグラムから有益なパッチ領域を特定し、CNNベースのネットワークは選択したパッチから微調整されたローカル機能を抽出します。
次に、融合モジュールは、両方のネットワークからグローバル情報とローカル情報を統合して、堅牢な予測を生成します。
HybMNetはエンドツーエンドでトレーニングされており、損失関数はSWIN-TとCNNモジュールの出力を組み合わせて、特徴の抽出と分類のパフォーマンスを最適化します。
結果:提案された方法は、良性(正常)と悪性マンモグラムを区別することにより、乳がんを検出する能力について評価されました。
SSLプレトレーニングとHybMNETモデルを活用して、CMMDデータセットで0.864(95%CI:0.852、0.875)のAUCを達成し、0.889(95%CI:0.875、0.903)をbreastデータセットで達成し、その効果を強調しました。

要約(オリジナル)

Purpose: The scarcity of high-quality curated labeled medical training data remains one of the major limitations in applying artificial intelligence (AI) systems to breast cancer diagnosis. Deep models for mammogram analysis and mass (or micro-calcification) detection require training with a large volume of labeled images, which are often expensive and time-consuming to collect. To reduce this challenge, we proposed a novel method that leverages self-supervised learning (SSL) and a deep hybrid model, named \textbf{HybMNet}, which combines local self-attention and fine-grained feature extraction to enhance breast cancer detection on screening mammograms. Approach: Our method employs a two-stage learning process: (1) SSL Pretraining: We utilize EsViT, a SSL technique, to pretrain a Swin Transformer (Swin-T) using a limited set of mammograms. The pretrained Swin-T then serves as the backbone for the downstream task. (2) Downstream Training: The proposed HybMNet combines the Swin-T backbone with a CNN-based network and a novel fusion strategy. The Swin-T employs local self-attention to identify informative patch regions from the high-resolution mammogram, while the CNN-based network extracts fine-grained local features from the selected patches. A fusion module then integrates global and local information from both networks to generate robust predictions. The HybMNet is trained end-to-end, with the loss function combining the outputs of the Swin-T and CNN modules to optimize feature extraction and classification performance. Results: The proposed method was evaluated for its ability to detect breast cancer by distinguishing between benign (normal) and malignant mammograms. Leveraging SSL pretraining and the HybMNet model, it achieved AUC of 0.864 (95% CI: 0.852, 0.875) on the CMMD dataset and 0.889 (95% CI: 0.875, 0.903) on the INbreast dataset, highlighting its effectiveness.

arxiv情報

著者 Han Chen,Anne L. Martel
発行日 2025-04-28 15:23:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing breast cancer detection on screening mammogram using self-supervised learning and a hybrid deep model of Swin Transformer and Convolutional Neural Network はコメントを受け付けていません

CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition

要約

映画の構成のタスクのための新しいフレームワークであるCineverseを提示します。
従来のマルチショット生成と同様に、私たちのタスクは、フレーム間の一貫性と連続性の必要性を強調しています。
ただし、私たちのタスクは、複数のキャラクター、複雑な相互作用、視覚的な映画効果など、映画製作に固有の課題に対処することにも焦点を当てています。
このようなコンテンツを生成することを学ぶために、最初にCineverseデータセットを作成します。
このデータセットを使用して、提案されている2段階のアプローチをトレーニングします。
まず、タスク固有の指示を備えた大規模な言語モデル(LLM)に、高レベルのシーンの説明を取り入れ、全体的な設定とキャラクター、および個々のショットの詳細な計画を生成します。
次に、テキストからイメージの生成モデルを微調整して、高品質の視覚キーフレームを合成します。
実験結果は、シネバースが視覚的に一貫性のある文脈的に豊富な映画シーンを生成することで有望な改善をもたらし、映画のビデオ統合のさらなる探求への道を開くことを示しています。

要約(オリジナル)

We present CineVerse, a novel framework for the task of cinematic scene composition. Similar to traditional multi-shot generation, our task emphasizes the need for consistency and continuity across frames. However, our task also focuses on addressing challenges inherent to filmmaking, such as multiple characters, complex interactions, and visual cinematic effects. In order to learn to generate such content, we first create the CineVerse dataset. We use this dataset to train our proposed two-stage approach. First, we prompt a large language model (LLM) with task-specific instructions to take in a high-level scene description and generate a detailed plan for the overall setting and characters, as well as the individual shots. Then, we fine-tune a text-to-image generation model to synthesize high-quality visual keyframes. Experimental results demonstrate that CineVerse yields promising improvements in generating visually coherent and contextually rich movie scenes, paving the way for further exploration in cinematic video synthesis.

arxiv情報

著者 Quynh Phung,Long Mai,Fabian David Caba Heilbron,Feng Liu,Jia-Bin Huang,Cusuh Ham
発行日 2025-04-28 15:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition はコメントを受け付けていません

Breast Cancer Detection from Multi-View Screening Mammograms with Visual Prompt Tuning

要約

高解像度マンモグラムからの乳がんの正確な検出は、早期診断と効果的な治療計画に不可欠です。
以前の研究では、乳がんの検出にシングルビューマンモグラムを使用する可能性が示されています。
ただし、マルチビューデータを組み込むと、より包括的な洞察が得られます。
特に医療イメージングにおけるマルチビュー分類は、特に大規模で高解像度のデータを扱う場合、独自の課題を提示します。
この作業では、複数のスクリーニングマンモグラムを分析するための新しいマルチビュービジュアルプロンプトチューニングネットワーク(MVPT-NET)を提案します。
最初に、高解像度のマンモグラムで堅牢なシングルビュー分類モデルを前処理し、次にマルチビュー機能学習をタスク固有のプロンプトチューニングプロセスに革新的に適応させます。
この手法は、事前に訓練されたシングルビューモデルの堅牢性を保持しながら、最小限のトレーニング可能なパラメーター(7 \%)のセットを選択的に調整し、攻撃的なダウンサンプリングを必要とせずにマルチビューデータを効率的に統合できるようにします。
私たちのアプローチは、従来の特徴融合法に代わる効率的な代替品を提供し、高解像度のマンモグラム分析のためのより堅牢でスケーラブルで効率的なソリューションを提供します。
大規模な多施設データセットの実験結果は、私たちの方法が検出効率を維持しながら従来のアプローチを上回り、良性、DCI、および侵入クラスを区別するために0.852のAurocを達成することを示しています。
この作業は、医療イメージングタスクのMVPT-NETの可能性を強調し、乳がんの検出にマルチビューデータを統合するためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Accurate detection of breast cancer from high-resolution mammograms is crucial for early diagnosis and effective treatment planning. Previous studies have shown the potential of using single-view mammograms for breast cancer detection. However, incorporating multi-view data can provide more comprehensive insights. Multi-view classification, especially in medical imaging, presents unique challenges, particularly when dealing with large-scale, high-resolution data. In this work, we propose a novel Multi-view Visual Prompt Tuning Network (MVPT-NET) for analyzing multiple screening mammograms. We first pretrain a robust single-view classification model on high-resolution mammograms and then innovatively adapt multi-view feature learning into a task-specific prompt tuning process. This technique selectively tunes a minimal set of trainable parameters (7\%) while retaining the robustness of the pre-trained single-view model, enabling efficient integration of multi-view data without the need for aggressive downsampling. Our approach offers an efficient alternative to traditional feature fusion methods, providing a more robust, scalable, and efficient solution for high-resolution mammogram analysis. Experimental results on a large multi-institution dataset demonstrate that our method outperforms conventional approaches while maintaining detection efficiency, achieving an AUROC of 0.852 for distinguishing between Benign, DCIS, and Invasive classes. This work highlights the potential of MVPT-NET for medical imaging tasks and provides a scalable solution for integrating multi-view data in breast cancer detection.

arxiv情報

著者 Han Chen,Anne L. Martel
発行日 2025-04-28 15:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Breast Cancer Detection from Multi-View Screening Mammograms with Visual Prompt Tuning はコメントを受け付けていません

Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation

要約

自己学習学習(SSL)により、地球観察のためのVision Foundationモデルの開発が可能になり、多様なリモートセンシングタスク全体で強力な転送可能性が実証されています。
以前の作業では、ネットワークアーキテクチャとトレーニング戦略に焦点を当てていますが、特にトレーニング前のデータセットのバランスをとることと多様化におけるデータセットキュレーションの役割は、採用されていないままです。
EOでは、この課題は、衛星画像で一般的な冗長性と重尾の分布によって増幅され、偏った表現と非効率的なトレーニングにつながる可能性があります。
この作業では、データセットの多様性とバランスを最大化することにより、SSLの事前トレーニングを改善するために設計された動的なデータセット剪定戦略を提案します。
私たちの方法は、既存の機能抽出器を必要とせずにトレーニングセットを繰り返し改良し、キュレーションされたデータセットが制限または利用できないドメインに適しています。
海洋観測が支配する挑戦的なデータセットであるSentinel-1波モード(WV)合成開口レーダー(SAR)アーカイブに関するアプローチを実証します。
10年にわたるSentinel-1 WVアーカイブ全体でモデルをゼロから訓練します。
3つのダウンストリームタスクにわたって、我々の結果は、動的な剪定が計算効率と表現品質の両方を改善し、移動性が強くなることを示しています。
また、github.com/galeio-research/oceansar-models/で、SAR画像を使用した海洋観測と分析のための一連の基礎モデルであるOceansarファミリーの最初のモデルであるOceansar-1の重みをリリースします。

要約(オリジナル)

Self-supervised learning (SSL) has enabled the development of vision foundation models for Earth Observation (EO), demonstrating strong transferability across diverse remote sensing tasks. While prior work has focused on network architectures and training strategies, the role of dataset curation, especially in balancing and diversifying pre-training datasets, remains underexplored. In EO, this challenge is amplified by the redundancy and heavy-tailed distributions common in satellite imagery, which can lead to biased representations and inefficient training. In this work, we propose a dynamic dataset pruning strategy designed to improve SSL pre-training by maximizing dataset diversity and balance. Our method iteratively refines the training set without requiring a pre-existing feature extractor, making it well-suited for domains where curated datasets are limited or unavailable. We demonstrate our approach on the Sentinel-1 Wave Mode (WV) Synthetic Aperture Radar (SAR) archive, a challenging dataset dominated by ocean observations. We train models from scratch on the entire Sentinel-1 WV archive spanning 10 years. Across three downstream tasks, our results show that dynamic pruning improves both computational efficiency and representation quality, leading to stronger transferability. We also release the weights of OceanSAR-1, the first model in the OceanSAR family, a series of foundation models for ocean observation and analysis using SAR imagery, at github.com/galeio-research/OceanSAR-models/.

arxiv情報

著者 Thomas Kerdreux,Alexandre Tuel,Quentin Febvre,Alexis Mouche,Bertrand Chapron
発行日 2025-04-28 15:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation はコメントを受け付けていません

Estimating the Number of HTTP/3 Responses in QUIC Using Deep Learning

要約

QUICは、ますますますます使用されている輸送プロトコルであり、セキュリティ、パフォーマンス、ストリームの多重化を改善することにより、TCPを強化します。
ただし、これらの機能は、Webトラフィックを監視および分析する必要があるネットワークミドルボックスに課題を課します。
このペーパーでは、オブザーバーによる特定のQUIC接続でHTTP/3の応答の数を推定する新しい方法を提案します。
この推定により、サーバーの動作、クライアントサーバーの相互作用、およびデータ送信効率が明らかになります。これは、負荷分散ソリューションの設計やHTTP/3の洪水攻撃の検出など、さまざまなアプリケーションにとって重要です。
提案されたスキームは、QUIC接続トレースを画像シーケンスに変換し、カスタマイズされた損失関数に導かれた機械学習(ML)モデルを使用して、応答数を予測します。
4か月にわたって44,000のWebサイトで収集された100,000の痕跡から700万件以上の画像を派生した評価は、既知と未知のサーバー設定の両方で最大97%の精度と、以前に見えなかった完全なQUICトレースで92%の精度を満たしています。

要約(オリジナル)

QUIC, a new and increasingly used transport protocol, enhances TCP by offering improved security, performance, and stream multiplexing. These features, however, also impose challenges for network middle-boxes that need to monitor and analyze web traffic. This paper proposes a novel method to estimate the number of HTTP/3 responses in a given QUIC connection by an observer. This estimation reveals server behavior, client-server interactions, and data transmission efficiency, which is crucial for various applications such as designing a load balancing solution and detecting HTTP/3 flood attacks. The proposed scheme transforms QUIC connection traces into image sequences and uses machine learning (ML) models, guided by a tailored loss function, to predict response counts. Evaluations on more than seven million images-derived from 100,000 traces collected across 44,000 websites over four months-achieve up to 97% accuracy in both known and unknown server settings and 92% accuracy on previously unseen complete QUIC traces.

arxiv情報

著者 Barak Gahtan,Robert J. Shahla,Reuven Cohen,Alex M. Bronstein
発行日 2025-04-28 15:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NI | Estimating the Number of HTTP/3 Responses in QUIC Using Deep Learning はコメントを受け付けていません

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

要約

手術ビデオの自動要約は、手順文書化を強化し、外科的訓練をサポートし、術後分析を促進するために不可欠です。
この論文は、人工知能と医学の交差点で、外科的文脈での直接的な現実世界の用途を備えた機械学習モデルを開発することを目的とした新しい方法を紹介します。
コンピュータービジョンと大規模な言語モデルの最近の進歩を活用して、包括的なビデオ要約を生み出すマルチモーダルフレームワークを提案します。
%アプローチは3つの重要な段階で構成されています。
まず、手術ビデオはクリップに分割され、視覚的な機能が視覚的な変圧器を使用してフレームレベルで抽出されます。
このステップでは、ツール、組織、臓器、および外科的作用の検出に焦点を当てています。
第二に、抽出された機能は、大規模な言語モデルを介してフレームレベルのキャプションに変換されます。
これらは、Vivitベースのエンコーダーを使用してキャプチャされ、各ビデオセグメントのより広いコンテキストを反映するクリップレベルの概要を作成する一時的な機能と組み合わされます。
最後に、クリップレベルの説明は、要約タスクに合わせた専用のLLMを使用して、完全な外科的報告に集約されます。
%50のLaparoscopicビデオからの機器とアクションの注釈を使用して、ChoLect50データセットでの方法を評価します。
結果は強力なパフォーマンスを示し、ツール検出で96 \%精度を達成し、時間的コンテキストの要約では0.74のBERTスコアを達成します。
この作業は、外科的報告のためのAI支援ツールの進歩に貢献し、よりインテリジェントで信頼できる臨床文書化への一歩を提供します。

要約(オリジナル)

The automatic summarization of surgical videos is essential for enhancing procedural documentation, supporting surgical training, and facilitating post-operative analysis. This paper presents a novel method at the intersection of artificial intelligence and medicine, aiming to develop machine learning models with direct real-world applications in surgical contexts. We propose a multi-modal framework that leverages recent advancements in computer vision and large language models to generate comprehensive video summaries. % The approach is structured in three key stages. First, surgical videos are divided into clips, and visual features are extracted at the frame level using visual transformers. This step focuses on detecting tools, tissues, organs, and surgical actions. Second, the extracted features are transformed into frame-level captions via large language models. These are then combined with temporal features, captured using a ViViT-based encoder, to produce clip-level summaries that reflect the broader context of each video segment. Finally, the clip-level descriptions are aggregated into a full surgical report using a dedicated LLM tailored for the summarization task. % We evaluate our method on the CholecT50 dataset, using instrument and action annotations from 50 laparoscopic videos. The results show strong performance, achieving 96\% precision in tool detection and a BERT score of 0.74 for temporal context summarization. This work contributes to the advancement of AI-assisted tools for surgical reporting, offering a step toward more intelligent and reliable clinical documentation.

arxiv情報

著者 Hugo Georgenthum,Cristian Cosentino,Fabrizio Marozzo,Pietro Liò
発行日 2025-04-28 15:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI はコメントを受け付けていません