ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images

要約

複雑で実世界のシナリオで確実に実行できるエゴセントリック3Dハンドポーズ推定システムの設計は、下流のアプリケーションにとって重要です。
RGBまたはNIR画像を使用した以前のアプローチは、挑戦的な状況での闘争です。RGBメソッドは、照明のバリエーションやハンドウェアのような障害の影響を受けやすくなりますが、NIRのテクニックは日光や他のNIR装備のデバイスからの干渉によって破壊される可能性があります。
これらの制限に対処するために、サーマルイメージベースのエゴセントリック3Dハンドポーズ推定に焦点を当てた最初のベンチマークであるサーモハンドを提示し、これらの条件下で堅牢な性能を達成する熱イメージングの可能性を示しています。
ベンチマークには、自動化されたプロセスを通じて3Dハンドポーズで正確に注釈が付けられた、多様なシナリオの下でハンドオブジェクトとハンドと仮想の相互作用を実行する28人の被験者から収集されたマルチビューとマルチスペクトルデータセットが含まれます。
熱画像における効果的なエゴセントリック3Dハンドポーズ推定のために、デュアルトランスモジュールを使用して、新しいベースラインメソッド、Therformerを導入します。
私たちの実験結果は、TherFormerの主要なパフォーマンスを強調し、有害条件での堅牢な3Dハンドポーズ推定を可能にする際の熱イメージングの有効性を確認します。

要約(オリジナル)

Designing egocentric 3D hand pose estimation systems that can perform reliably in complex, real-world scenarios is crucial for downstream applications. Previous approaches using RGB or NIR imagery struggle in challenging conditions: RGB methods are susceptible to lighting variations and obstructions like handwear, while NIR techniques can be disrupted by sunlight or interference from other NIR-equipped devices. To address these limitations, we present ThermoHands, the first benchmark focused on thermal image-based egocentric 3D hand pose estimation, demonstrating the potential of thermal imaging to achieve robust performance under these conditions. The benchmark includes a multi-view and multi-spectral dataset collected from 28 subjects performing hand-object and hand-virtual interactions under diverse scenarios, accurately annotated with 3D hand poses through an automated process. We introduce a new baseline method, TherFormer, utilizing dual transformer modules for effective egocentric 3D hand pose estimation in thermal imagery. Our experimental results highlight TherFormer’s leading performance and affirm thermal imaging’s effectiveness in enabling robust 3D hand pose estimation in adverse conditions.

arxiv情報

著者 Fangqiang Ding,Yunzhou Zhu,Xiangyu Wen,Gaowen Liu,Chris Xiaoxuan Lu
発行日 2025-02-27 15:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images はコメントを受け付けていません

4Deform: Neural Surface Deformation for Robust Shape Interpolation

要約

非剛性変形した形状の間に現実的な中間形状を生成することは、特にフレーム間の時間的一貫性が欠けており、トポロジが変化している構造化されていないデータ(例:ポイントクラウド)の場合、コンピュータービジョンの困難なタスクです。
ほとんどの補間方法は、構造化データ(つまり、メッシュ)用に設計されており、実際のポイントクラウドには適用されません。
対照的に、私たちのアプローチである4Deformは、神経暗黙の表現(NIR)を活用して、形状変形を変える自由なトポロジを可能にします。
頂点ベースの変形場を学習する以前のメッシュベースの方法とは異なり、この方法はユークリッド空間の連続速度フィールドを学習します。
したがって、ポイントクラウドなどの構造化されていないデータに適しています。
さらに、私たちの方法では、トレーニング中に中間形状の監督を必要としません。
代わりに、速度フィールドを正規化するために、物理的および幾何学的な制約を組み込みます。
NIRと速度フィールドを直接リンクする、修正されたレベルセット方程式を使用して中間表面を再構築します。
実験は、私たちの方法が、さまざまなシナリオ(例えば、ノイジー、部分、トポロジ、非等式形状など)にわたって以前のNIRアプローチを大幅に上回ることを示しており、4D Kinectシーケンスアップサンプリングや実世界の高解像度メッシュの変化などの新しいアプリケーションを初めて可能にします。

要約(オリジナル)

Generating realistic intermediate shapes between non-rigidly deformed shapes is a challenging task in computer vision, especially with unstructured data (e.g., point clouds) where temporal consistency across frames is lacking, and topologies are changing. Most interpolation methods are designed for structured data (i.e., meshes) and do not apply to real-world point clouds. In contrast, our approach, 4Deform, leverages neural implicit representation (NIR) to enable free topology changing shape deformation. Unlike previous mesh-based methods that learn vertex-based deformation fields, our method learns a continuous velocity field in Euclidean space. Thus, it is suitable for less structured data such as point clouds. Additionally, our method does not require intermediate-shape supervision during training; instead, we incorporate physical and geometrical constraints to regularize the velocity field. We reconstruct intermediate surfaces using a modified level-set equation, directly linking our NIR with the velocity field. Experiments show that our method significantly outperforms previous NIR approaches across various scenarios (e.g., noisy, partial, topology-changing, non-isometric shapes) and, for the first time, enables new applications like 4D Kinect sequence upsampling and real-world high-resolution mesh deformation.

arxiv情報

著者 Lu Sang,Zehranaz Canfes,Dongliang Cao,Riccardo Marin,Florian Bernard,Daniel Cremers
発行日 2025-02-27 15:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 4Deform: Neural Surface Deformation for Robust Shape Interpolation はコメントを受け付けていません

DIPSER: A Dataset for In-Person Student1 Engagement Recognition in the Wild

要約

このホワイトペーパーでは、個人の教室の設定内で学生の注意を評価するために設計された新しいデータセットが導入されています。
このデータセットには、各個人のスマートウォッチセンサーデータに加えて、姿勢と表情の両方をキャプチャするために、生徒ごとに複数のカメラを備えたRGBカメラデータが含まれます。
このデータセットにより、機械学習アルゴリズムをトレーニングして、注意を予測し、感情と相関させることができます。
各生徒に注意と感情のラベルの包括的なスイートが提供され、4人の異なる専門家による評価と評価によって生成されます。
当社のデータセットは、フェイシャルカメラデータと環境カメラデータ、スマートウォッチメトリックを独自に組み合わせており、すべてのデータセットで過小評価されている民族が含まれており、すべて内部の対面設定内で、現在利用可能なこの種の最も包括的なデータセットになっています。
提示されたデータセットは、他のツールからの追加のメタデータで増強された、さまざまな教育コンテキストにわたる学生のやり取りに関する広範かつ多様なデータのコレクションを提供します。
このイニシアチブは、対面のレッスンにおける学生の注意と感情を分析するための貴重なリソースを提供することにより、既存の欠陥に対処します。

要約(オリジナル)

In this paper, a novel dataset is introduced, designed to assess student attention within in-person classroom settings. This dataset encompasses RGB camera data, featuring multiple cameras per student to capture both posture and facial expressions, in addition to smartwatch sensor data for each individual. This dataset allows machine learning algorithms to be trained to predict attention and correlate it with emotion. A comprehensive suite of attention and emotion labels for each student is provided, generated through self-reporting as well as evaluations by four different experts. Our dataset uniquely combines facial and environmental camera data, smartwatch metrics, and includes underrepresented ethnicities in similar datasets, all within in-the-wild, in-person settings, making it the most comprehensive dataset of its kind currently available. The dataset presented offers an extensive and diverse collection of data pertaining to student interactions across different educational contexts, augmented with additional metadata from other tools. This initiative addresses existing deficiencies by offering a valuable resource for the analysis of student attention and emotion in face-to-face lessons.

arxiv情報

著者 Luis Marquez-Carpintero,Sergio Suescun-Ferrandiz,Carolina Lorenzo Álvarez,Jorge Fernandez-Herrero,Diego Viejo,Rosabel Roig-Vila,Miguel Cazorla
発行日 2025-02-27 15:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DIPSER: A Dataset for In-Person Student1 Engagement Recognition in the Wild はコメントを受け付けていません

Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars

要約

伝統的に、写真リアルな3Dヘッドアバターを作成するには、テスト時間中にスタジオレベルのマルチビューキャプチャセットアップと高価な最適化が必要であり、デジタルヒューマンダブルの使用をVFX業界またはオフラインレンダリングに制限します。
この欠点に対処するために、AVAT3Rを提示します。AVAT3Rは、わずか数の入力画像から高品質でアニメーション可能な3Dヘッドアバターを回帰し、推論中に計算要件を大幅に削減します。
より具体的には、大規模な再構成モデ​​ルをアニメーション化し、大規模なマルチビュービデオデータセットから3D人のヘッドを超えて強力な事前に学習します。
より良い3Dヘッド再構成のために、Dust3Rの位置マップと、Human FoundationモデルのSapiensからの一般化機能マップを採用しています。
3Dヘッドをアニメーション化するために、私たちの重要な発見は、式コードとの単純な相互参加がすでに十分であることです。
最後に、トレーニング中にモデルにさまざまな表現を供給し、一貫性のない入力からの3Dヘッドアバターの再構築を可能にすることにより、堅牢性を高めます。
AVAT3Rを、少数の入力シナリオとシングル入力シナリオの現在の最先端の方法と比較し、両方のタスクでこの方法が競争上の優位性を持っていることがわかります。
最後に、提案されたモデルの幅広い適用性を示し、さまざまなソース、スマートフォンのキャプチャ、単一の画像、さらにはアンティークバストのようなドメイン外の入力の画像から3Dヘッドアバターを作成します。
プロジェクトのウェブサイト:https://tobias-kirschstein.github.io/avat3r/

要約(オリジナル)

Traditionally, creating photo-realistic 3D head avatars requires a studio-level multi-view capture setup and expensive optimization during test-time, limiting the use of digital human doubles to the VFX industry or offline renderings. To address this shortcoming, we present Avat3r, which regresses a high-quality and animatable 3D head avatar from just a few input images, vastly reducing compute requirements during inference. More specifically, we make Large Reconstruction Models animatable and learn a powerful prior over 3D human heads from a large multi-view video dataset. For better 3D head reconstructions, we employ position maps from DUSt3R and generalized feature maps from the human foundation model Sapiens. To animate the 3D head, our key discovery is that simple cross-attention to an expression code is already sufficient. Finally, we increase robustness by feeding input images with different expressions to our model during training, enabling the reconstruction of 3D head avatars from inconsistent inputs, e.g., an imperfect phone capture with accidental movement, or frames from a monocular video. We compare Avat3r with current state-of-the-art methods for few-input and single-input scenarios, and find that our method has a competitive advantage in both tasks. Finally, we demonstrate the wide applicability of our proposed model, creating 3D head avatars from images of different sources, smartphone captures, single images, and even out-of-domain inputs like antique busts. Project website: https://tobias-kirschstein.github.io/avat3r/

arxiv情報

著者 Tobias Kirschstein,Javier Romero,Artem Sevastopolsky,Matthias Nießner,Shunsuke Saito
発行日 2025-02-27 16:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars はコメントを受け付けていません

Deep Convolutional Neural Networks for Palm Fruit Maturity Classification

要約

パーム油の収量と品質を最大化するには、最適な成熟段階でヤシの果物を収穫することが不可欠です。
このプロジェクトは、パームフルーツ画像を5つの熟度レベルに正確に分類できる自動コンピュータービジョンシステムを開発することを目的としています。
深い畳み込みニューラルネットワーク(CNN)を使用して、成熟段階に基づいてパームフルーツ画像を分類します。
浅いCNNはベースラインモデルとして機能し、転送学習と微調整は、事前に訓練されたResNet50およびInceptionV3アーキテクチャに適用されます。
この調査では、有意なバリエーションを持つ8,000を超える画像の公開されているデータセットを利用しています。これは、トレーニング用に80 \%、テストで20 \%に分割されています。
提案されているディープCNNモデルは、パームフルーツの成熟段階の分類において、85 \%を超えるテスト精度を実現します。
この研究は、パームフルーツの熟度評価を自動化するための深い学習の可能性を強調しています。これは、収穫の決定を最適化し、パーム油の生産効率を改善することに貢献する可能性があります。

要約(オリジナル)

To maximize palm oil yield and quality, it is essential to harvest palm fruit at the optimal maturity stage. This project aims to develop an automated computer vision system capable of accurately classifying palm fruit images into five ripeness levels. We employ deep Convolutional Neural Networks (CNNs) to classify palm fruit images based on their maturity stage. A shallow CNN serves as the baseline model, while transfer learning and fine-tuning are applied to pre-trained ResNet50 and InceptionV3 architectures. The study utilizes a publicly available dataset of over 8,000 images with significant variations, which is split into 80\% for training and 20\% for testing. The proposed deep CNN models achieve test accuracies exceeding 85\% in classifying palm fruit maturity stages. This research highlights the potential of deep learning for automating palm fruit ripeness assessment, which can contribute to optimizing harvesting decisions and improving palm oil production efficiency.

arxiv情報

著者 Mingqiang Han,Chunlin Yi
発行日 2025-02-27 16:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Deep Convolutional Neural Networks for Palm Fruit Maturity Classification はコメントを受け付けていません

RURANET++: An Unsupervised Learning Method for Diabetic Macular Edema Based on SCSE Attention Mechanisms and Dynamic Multi-Projection Head Clustering

要約

糖尿病患者の間で一般的な合併症である糖尿病性黄斑浮腫(DME)は、視覚障害と失明の主な原因を構成します。
ディープラーニングは医療画像分析で顕著な進歩を遂げていますが、従来のDME診断は依然として広範な注釈付きデータと主観的な眼科医の評価に依存しており、実用的なアプリケーションを制限しています。
これに対処するために、監視されていない学習ベースの自動DME診断システムであるRuranet ++を提示します。
このフレームワークには、病変の特徴抽出を強化するための空間およびチャネルスクイーズ&励起(SCSE)の注意メカニズムを備えた最適化されたU-NETアーキテクチャが組み込まれています。
機能処理中、事前に訓練されたGoogleNetモデルは、網膜画像から深い特徴を抽出し、その後、計算効率のためにPCAベースの次元削減を50次元に抽出します。
特に、マルチプロジェクションヘッドを使用してクラスターの多様性を明示的に制御しながら、類似のしきい値を動的に調整し、クラス内の一貫性とクラス間識別を最適化するために、クラスターの多様性を明示的に制御する新しいクラスタリングアルゴリズムを導入します。
実験結果は、複数のメトリックにわたって優れたパフォーマンスを示し、最大精度(0.8411)、精度(0.8593)、リコール(0.8411)、およびF1スコア(0.8390)を達成し、並外れたクラスタリング品質を備えています。
この研究は、DME診断のための効率的な監視されていないソリューションを提供し、臨床的に大きな意味を持ちます。

要約(オリジナル)

Diabetic Macular Edema (DME), a prevalent complication among diabetic patients, constitutes a major cause of visual impairment and blindness. Although deep learning has achieved remarkable progress in medical image analysis, traditional DME diagnosis still relies on extensive annotated data and subjective ophthalmologist assessments, limiting practical applications. To address this, we present RURANET++, an unsupervised learning-based automated DME diagnostic system. This framework incorporates an optimized U-Net architecture with embedded Spatial and Channel Squeeze & Excitation (SCSE) attention mechanisms to enhance lesion feature extraction. During feature processing, a pre-trained GoogLeNet model extracts deep features from retinal images, followed by PCA-based dimensionality reduction to 50 dimensions for computational efficiency. Notably, we introduce a novel clustering algorithm employing multi-projection heads to explicitly control cluster diversity while dynamically adjusting similarity thresholds, thereby optimizing intra-class consistency and inter-class discrimination. Experimental results demonstrate superior performance across multiple metrics, achieving maximum accuracy (0.8411), precision (0.8593), recall (0.8411), and F1-score (0.8390), with exceptional clustering quality. This work provides an efficient unsupervised solution for DME diagnosis with significant clinical implications.

arxiv情報

著者 Wei Yang,Yiran Zhu,Jiayu Shen,Yuhan Tang,Chengchang Pan,Hui He,Yan Su,Honggang Qi
発行日 2025-02-27 16:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | RURANET++: An Unsupervised Learning Method for Diabetic Macular Edema Based on SCSE Attention Mechanisms and Dynamic Multi-Projection Head Clustering はコメントを受け付けていません

Liquid: Language Models are Scalable and Unified Multi-modal Generators

要約

画像を個別のコードにトークン化し、ビジョンと言語の両方で共有機能スペース内のテキストトークンとともにこれらのコード埋め込みを学習することにより、視覚的理解と生成をシームレスに統合する自動動向的な生成パラダイムであるLiquidを提示します。
以前のマルチモーダル大手言語モデル(MLLM)とは異なり、Liquidは単一の大手言語モデル(LLM)を使用してこの統合を達成し、クリップなどの外部の前提型の視覚埋め込みの必要性を排除します。
液体は、モデルサイズが大きくなるにつれて視覚および言語のタスクの統一トレーニングによって不可避的にもたらされないパフォーマンスが低下するスケーリング法則を初めて明らかにします。
さらに、統一されたトークンスペースにより、視覚的な生成と理解タスクが相互に強化し、以前のモデルで見られる典型的な干渉を効果的に削除することができます。
既存のLLMは、液体の強力な基盤として機能し、トレーニングコストを100倍節約しながら、マルチモーダル機能のカメレオンを上回り、LLAMA2のような主流のLLMに匹敵する言語パフォーマンスを維持できることを示しています。
液体は、SD V2.1やSD-XL(MJHQ-30Kで5.47のFID)などのモデルを上回り、視覚言語とテキストのみのタスクの両方で優れています。
この作業は、QWEN2.5やGemma2などのLLMが強力なマルチモーダルジェネレーターであり、視覚言語の理解と生成の両方を強化するためのスケーラブルなソリューションを提供することを示しています。
コードとモデルはhttps://github.com/foundationvision/liquidでリリースされます。

要約(オリジナル)

We present Liquid, an auto-regressive generation paradigm that seamlessly integrates visual comprehension and generation by tokenizing images into discrete codes and learning these code embeddings alongside text tokens within a shared feature space for both vision and language. Unlike previous multimodal large language model (MLLM), Liquid achieves this integration using a single large language model (LLM), eliminating the need for external pretrained visual embeddings such as CLIP. For the first time, Liquid uncovers a scaling law that performance drop unavoidably brought by the unified training of visual and language tasks diminishes as the model size increases. Furthermore, the unified token space enables visual generation and comprehension tasks to mutually enhance each other, effectively removing the typical interference seen in earlier models. We show that existing LLMs can serve as strong foundations for Liquid, saving 100x in training costs while outperforming Chameleon in multimodal capabilities and maintaining language performance comparable to mainstream LLMs like LLAMA2. Liquid also outperforms models like SD v2.1 and SD-XL (FID of 5.47 on MJHQ-30K), excelling in both vision-language and text-only tasks. This work demonstrates that LLMs such as Qwen2.5 and GEMMA2 are powerful multimodal generators, offering a scalable solution for enhancing both vision-language understanding and generation. The code and models will be released at https://github.com/FoundationVision/Liquid.

arxiv情報

著者 Junfeng Wu,Yi Jiang,Chuofan Ma,Yuliang Liu,Hengshuang Zhao,Zehuan Yuan,Song Bai,Xiang Bai
発行日 2025-02-27 16:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Liquid: Language Models are Scalable and Unified Multi-modal Generators はコメントを受け付けていません

Dreamweaver: Learning Compositional World Models from Pixels

要約

人間は、世界の認識をオブジェクトと、色、形状、運動パターンなどの属性に分解する生来の能力を持っています。
この認知プロセスにより、おなじみの概念を組み立てることにより、新しい未来を想像することができます。
ただし、人工知能システムでこの能力を複製することは、特に動画を構成概念にモデル化し、テキスト、マスク、境界ボックスなどの補助データに依存することなく、目に見えない再構築を生成する場合に挑戦的であることが証明されています。
この論文では、生ビデオから階層的および構成的表現を発見し、構成の将来のシミュレーションを生成するために設計された神経アーキテクチャであるDreamWeaverを提案します。
私たちのアプローチは、新しい再発ブロックスロットユニット(RBSU)を活用して、構成要素オブジェクトと属性にビデオを分解します。
さらに、DreamWeaverは、マルチフューチャーフレーム予測の目的を使用して、動的概念の解きだれの表現をより効果的にキャプチャし、静的概念をキャプチャします。
実験では、複数のデータセットにわたってDCIフレームワークの下で評価された場合、モデルが世界モデリングの最新のベースラインを上回ることを実証します。
さらに、モデルのモジュール化された概念表現が構成想像力をどのように可能にし、以前に見たオブジェクトから属性を組換えることにより、新しいビデオの生成を可能にする方法を示します。
cun-bjy.github.io/dreamweaver-website

要約(オリジナル)

Humans have an innate ability to decompose their perceptions of the world into objects and their attributes, such as colors, shapes, and movement patterns. This cognitive process enables us to imagine novel futures by recombining familiar concepts. However, replicating this ability in artificial intelligence systems has proven challenging, particularly when it comes to modeling videos into compositional concepts and generating unseen, recomposed futures without relying on auxiliary data, such as text, masks, or bounding boxes. In this paper, we propose Dreamweaver, a neural architecture designed to discover hierarchical and compositional representations from raw videos and generate compositional future simulations. Our approach leverages a novel Recurrent Block-Slot Unit (RBSU) to decompose videos into their constituent objects and attributes. In addition, Dreamweaver uses a multi-future-frame prediction objective to capture disentangled representations for dynamic concepts more effectively as well as static concepts. In experiments, we demonstrate our model outperforms current state-of-the-art baselines for world modeling when evaluated under the DCI framework across multiple datasets. Furthermore, we show how the modularized concept representations of our model enable compositional imagination, allowing the generation of novel videos by recombining attributes from previously seen objects. cun-bjy.github.io/dreamweaver-website

arxiv情報

著者 Junyeob Baek,Yi-Fu Wu,Gautam Singh,Sungjin Ahn
発行日 2025-02-27 16:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Dreamweaver: Learning Compositional World Models from Pixels はコメントを受け付けていません

Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis

要約

QUIC Transport Protocolの採用の増加により、暗号化されたWebトラフィックが変換され、ネットワーク分析のための新しい方法論が必要です。
ただし、既存のデータセットには、暗号化されたトラフィック調査で堅牢なベンチマークに必要な範囲、メタデータ、および復号化機能がありません。
4か月にわたって収集された44,000を超えるWebサイトから100,000のラベル付きのQUICトレースの大規模なデータセットであるVisquicを紹介します。
以前のデータセットとは異なり、Visquicは制御された復号化のSSLキーを提供し、複数のQUIC実装(Chromium Quic、Facebooks MVFST、CloudFlares Quiche)をサポートし、機械学習駆動型の暗号化された交通分析を可能にする新しい画像ベースの表現を導入します。
データセットには、標準化されたベンチマークツールが含まれており、再現性が確保されます。
Visquicsユーティリティを実証するために、暗号化されたQUICトラフィックでHTTP/3応答を推定するためのベンチマークタスクを提示し、観察可能なパケット機能のみを使用して97%の精度を達成します。
Visquicを公開することにより、暗号化されたトラフィック分析、QUICセキュリティ調査、ネットワーク監視を進めるための公開基盤を提供します。

要約(オリジナル)

The increasing adoption of the QUIC transport protocol has transformed encrypted web traffic, necessitating new methodologies for network analysis. However, existing datasets lack the scope, metadata, and decryption capabilities required for robust benchmarking in encrypted traffic research. We introduce VisQUIC, a large-scale dataset of 100,000 labeled QUIC traces from over 44,000 websites, collected over four months. Unlike prior datasets, VisQUIC provides SSL keys for controlled decryption, supports multiple QUIC implementations (Chromium QUIC, Facebooks mvfst, Cloudflares quiche), and introduces a novel image-based representation that enables machine learning-driven encrypted traffic analysis. The dataset includes standardized benchmarking tools, ensuring reproducibility. To demonstrate VisQUICs utility, we present a benchmarking task for estimating HTTP/3 responses in encrypted QUIC traffic, achieving 97% accuracy using only observable packet features. By publicly releasing VisQUIC, we provide an open foundation for advancing encrypted traffic analysis, QUIC security research, and network monitoring.

arxiv情報

著者 Barak Gahtan,Robert J. Shahla,Alex M. Bronstein,Reuven Cohen
発行日 2025-02-27 16:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NI | Exploring QUIC Dynamics: A Large-Scale Dataset for Encrypted Traffic Analysis はコメントを受け付けていません

Attention Distillation: A Unified Approach to Visual Characteristics Transfer

要約

生成拡散モデルの最近の進歩により、画像スタイルとセマンティクスの顕著な固有の理解が示されています。
このホワイトペーパーでは、前処理された拡散ネットワークからの自己関節機能を活用して、参照から生成された画像に視覚特性を転送します。
これらの機能をプラグアンドプレイ属性として使用する以前の研究とは異なり、理想的なスタイリライゼーション結果と現在のスタイリライゼーションの結果の間に計算された新しい注意蒸留損失を提案します。
次に、注意蒸留の損失を除去サンプリングプロセスに統合する改善された分類器ガイダンスを提案し、合成をさらに加速し、幅広い画像生成アプリケーションを可能にします。
広範な実験により、例のスタイル、外観、テクスチャーを合成中の新しい画像に転送する際のアプローチの並外れたパフォーマンスが実証されています。
コードはhttps://github.com/xugao97/attentiondistillationで入手できます。

要約(オリジナル)

Recent advances in generative diffusion models have shown a notable inherent understanding of image style and semantics. In this paper, we leverage the self-attention features from pretrained diffusion networks to transfer the visual characteristics from a reference to generated images. Unlike previous work that uses these features as plug-and-play attributes, we propose a novel attention distillation loss calculated between the ideal and current stylization results, based on which we optimize the synthesized image via backpropagation in latent space. Next, we propose an improved Classifier Guidance that integrates attention distillation loss into the denoising sampling process, further accelerating the synthesis and enabling a broad range of image generation applications. Extensive experiments have demonstrated the extraordinary performance of our approach in transferring the examples’ style, appearance, and texture to new images in synthesis. Code is available at https://github.com/xugao97/AttentionDistillation.

arxiv情報

著者 Yang Zhou,Xu Gao,Zichong Chen,Hui Huang
発行日 2025-02-27 16:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Attention Distillation: A Unified Approach to Visual Characteristics Transfer はコメントを受け付けていません