Learning Real Facial Concepts for Independent Deepfake Detection

要約

DeepFake検出モデルは、目標ドメインの偽物として実際のインスタンスを誤分類するものとして明示され、目に見えないデータセットへの一般化に苦労することがよくあります。
これは主に、偽造品のアーティファクトへの過度の依存と、実際の顔の理解が限られているためです。
この課題に対処するために、本物の顔と偽のクラスに属する確率を独立して評価しながら、実際の顔の包括的な概念を学ぶことにより、一般化を強化するための新しいアプローチを提案します。
RealIDは、Real Concept Captureモジュール(REALC2)と独立したデュアル決定分類器(IDC)の2つの重要なモジュールで構成されています。
Multireal Memoryの助けを借りて、RealC2は実際の顔のさまざまなプロトタイプを維持し、モデルが実際のクラスの包括的な概念をキャプチャできるようにします。
一方、IDCは、実際のクラスの概念と偽造工芸品の存在に基づいて独立した決定を下すことにより、分類戦略を再定義します。
上記のモジュールの複合効果により、偽造傍パターンの影響が軽減され、5つの広く使用されているデータセットでの広範な実験は、RealIDが既存の最先端の方法を大幅に上回り、平均精度が1.74%改善することを示しています。

要約(オリジナル)

Deepfake detection models often struggle with generalization to unseen datasets, manifesting as misclassifying real instances as fake in target domains. This is primarily due to an overreliance on forgery artifacts and a limited understanding of real faces. To address this challenge, we propose a novel approach RealID to enhance generalization by learning a comprehensive concept of real faces while assessing the probabilities of belonging to the real and fake classes independently. RealID comprises two key modules: the Real Concept Capture Module (RealC2) and the Independent Dual-Decision Classifier (IDC). With the assistance of a MultiReal Memory, RealC2 maintains various prototypes for real faces, allowing the model to capture a comprehensive concept of real class. Meanwhile, IDC redefines the classification strategy by making independent decisions based on the concept of the real class and the presence of forgery artifacts. Through the combined effect of the above modules, the influence of forgery-irrelevant patterns is alleviated, and extensive experiments on five widely used datasets demonstrate that RealID significantly outperforms existing state-of-the-art methods, achieving a 1.74% improvement in average accuracy.

arxiv情報

著者 Ming-Hui Liu,Harry Cheng,Tianyi Wang,Xin Luo,Xin-Shun Xu
発行日 2025-05-07 14:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Real Facial Concepts for Independent Deepfake Detection はコメントを受け付けていません

Question-Answering Dense Video Events

要約

このペーパーでは、密集したビデオイベントに関する質問を提示します。これは、長いビデオで密集したイベントの質問に答える斬新なタスクであるため、MLLMが長期間にわたって複数のイベントを忠実に理解し、推論することに挑戦します。
調査を容易にするために、10.6kのビデオで26Kイベントに関する78Kの質問を紹介するデータセットであるDeve-Qaを構築します。
私たちのベンチマークは、最先端のMLLMがDeve-Qaで苦労していることを示しています。
改善のために、階層的なキャプションモジュール、一時的なイベントメモリモジュール、およびそれぞれ質問の回答のための長いビデオで密集したイベントを検出、文脈化、記憶し、地面に輝かせる自己整合性チェックモジュールを強調する新しいトレーニングフリーMLLMアプローチであるDeviを提案します。
広範な実験は、Deviが密集した質問に答えるのが優れていることを示しており、関連するビデオの瞬間を接地しています。
既存のMLLMSと比較して、G(ラウンド)QAの精度でそれぞれ4.8%と2.1%の顕著な増加を達成し、それぞれDeve-Qa〜およびNext-Gqaが獲得します。
私たちのデータとコードは、受け入れられるとリリースされます。

要約(オリジナル)

This paper presents question-answering on dense video events, a novel task that answers and grounds dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events over extended periods of time. To facilitate the study, we construct DeVE-QA — a dataset featuring 78K questions about 26K events on 10.6K long videos. Our benchmarking shows that state-of-the-art MLLMs struggle on DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.8% and 2.1% for G(round)QA accuracy on DeVE-QA~and NExT-GQA, respectively. Our data and code will be released upon acceptance.

arxiv情報

著者 Hangyu Qin,Junbin Xiao,Angela Yao
発行日 2025-05-07 14:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

要約

Ming-Lite-Uniは、新しく設計された統一された視覚ジェネレーターと、ビジョンと言語を統合するために調整されたネイティブのマルチモーダルオートルーレフモデルを備えたオープンソースマルチモーダルフレームワークを紹介します。
具体的には、このプロジェクトは、統合されたメタケリーとM2-OMNIフレームワークのオープンソースの実装を提供しながら、新しいマルチスケール学習可能なトークンとマルチスケール表現アライメント戦略を導入します。
固定MLLMと学習可能な拡散モデルを活用することにより、Ming-Lite-UNIにより、ネイティブマルチモーダルARモデルはテキストから画像の生成と命令ベースの画像編集タスクの両方を実行し、純粋な視覚的理解を超えて機能を拡大できます。
私たちの実験結果は、Ming-Lite-Uniの強力なパフォーマンスを示しており、そのインタラクティブなプロセスの印象的な流動性の性質を示しています。
すべてのコードとモデルの重みは、コミュニティ内でのさらなる調査を促進するためにオープンソーリングされています。
特に、この作業は、2025年3月25日に更新されたネイティブ画像生成とChatGPT-4Oなどの同時マルチモーダルAIマイルストーンと一致しています。
Ming-Lite-Uniはアルファステージにあり、すぐにさらに洗練されます。

要約(オリジナル)

We introduce Ming-Lite-Uni, an open-source multimodal framework featuring a newly designed unified visual generator and a native multimodal autoregressive model tailored for unifying vision and language. Specifically, this project provides an open-source implementation of the integrated MetaQueries and M2-omni framework, while introducing the novel multi-scale learnable tokens and multi-scale representation alignment strategy. By leveraging a fixed MLLM and a learnable diffusion model, Ming-Lite-Uni enables native multimodal AR models to perform both text-to-image generation and instruction based image editing tasks, expanding their capabilities beyond pure visual understanding. Our experimental results demonstrate the strong performance of Ming-Lite-Uni and illustrate the impressive fluid nature of its interactive process. All code and model weights are open-sourced to foster further exploration within the community. Notably, this work aligns with concurrent multimodal AI milestones – such as ChatGPT-4o with native image generation updated in March 25, 2025 – underscoring the broader significance of unified models like Ming-Lite-Uni on the path toward AGI. Ming-Lite-Uni is in alpha stage and will soon be further refined.

arxiv情報

著者 Inclusion AI,Biao Gong,Cheng Zou,Dandan Zheng,Hu Yu,Jingdong Chen,Jianxin Sun,Junbo Zhao,Jun Zhou,Kaixiang Ji,Lixiang Ru,Libin Wang,Qingpei Guo,Rui Liu,Weilong Chai,Xinyu Xiao,Ziyuan Huang
発行日 2025-05-07 14:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction はコメントを受け付けていません

CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation

要約

最近、大規模な言語モデル(LLM)が大幅に成功し、一般的なテキストを超えて生成能力をドメイン固有の領域に拡大することへの関心が高まっています。
この研究では、LLMを使用したコンピューター支援設計(CAD)モデルのパラメトリックシーケンスの生成を調査します。
CADモデルパラメーターは3次元空間の形状と直接相関するため、この努力はLLMを使用してパラメトリック3D形状を作成するための最初のステップを表します。
LLMSの手ごわい生成能力にもかかわらず、これらのモデルは、前処理段階でパラメトリックシーケンスに遭遇したり、3D構造の直接的な認識を持っていないため、このタスクは困難なままです。
これに対処するために、パラメトリック3D CADモデルを生成するために前処理されたLLMを強化するように設計されたフレームワークであるCad-Llamaを提示します。
具体的には、階層的なセマンティック説明を組み込んだパラメトリック3D CADコマンドシーケンスを構造化されたパラメトリックCADコード(SPCC)に変換するために、階層的な注釈パイプラインとコードのような形式を開発します。
さらに、SPCCを使用した適応前の前削除アプローチを提案し、その後、CAD固有のガイドラインに沿った命令チューニングプロセスを提案します。
この方法論は、LLMSにパラメトリックシーケンスに固有の空間知識を装備することを目的としています。
実験結果は、私たちのフレームワークが、以前の自己回帰方法と既存のLLMベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have achieved significant success, prompting increased interest in expanding their generative capabilities beyond general text into domain-specific areas. This study investigates the generation of parametric sequences for computer-aided design (CAD) models using LLMs. This endeavor represents an initial step towards creating parametric 3D shapes with LLMs, as CAD model parameters directly correlate with shapes in three-dimensional space. Despite the formidable generative capacities of LLMs, this task remains challenging, as these models neither encounter parametric sequences during their pretraining phase nor possess direct awareness of 3D structures. To address this, we present CAD-Llama, a framework designed to enhance pretrained LLMs for generating parametric 3D CAD models. Specifically, we develop a hierarchical annotation pipeline and a code-like format to translate parametric 3D CAD command sequences into Structured Parametric CAD Code (SPCC), incorporating hierarchical semantic descriptions. Furthermore, we propose an adaptive pretraining approach utilizing SPCC, followed by an instruction tuning process aligned with CAD-specific guidelines. This methodology aims to equip LLMs with the spatial knowledge inherent in parametric sequences. Experimental results demonstrate that our framework significantly outperforms prior autoregressive methods and existing LLM baselines.

arxiv情報

著者 Jiahao Li,Weijian Ma,Xueyang Li,Yunzhong Lou,Guichun Zhou,Xiangdong Zhou
発行日 2025-05-07 14:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation はコメントを受け付けていません

Bayesian computation with generative diffusion models by Multilevel Monte Carlo

要約

生成的拡散モデルは最近、ベイジアンの逆問題で確率的サンプリングを実行する強力な戦略として浮上し、幅広い挑戦的なアプリケーションのために非常に正確なソリューションを提供しています。
ただし、拡散モデルは、正確な後部サンプルを提供するために、サンプルごとに多数の神経関数評価を必要とすることがよくあります。
その結果、ベイジアン計算におけるモンテカルロ統合のための確率的サンプラーとして拡散モデルを使用することは、特に不確実性の定量化分析を実施するためにかなりの数のモンテカルロサンプルを必要とするアプリケーションでは、非常に計算的に高価です。
このコストは、評価に費用がかかる大規模なニューラルネットワークに依存する計算イメージングなどの大規模な逆問題で特に高くなります。
定量的なイメージングアプリケーションを念頭に置いて、このペーパーでは、拡散モデルを使用したベイジアン計算のコストを大幅に削減するマルチレベルモンテカルロ戦略を紹介します。
これは、拡散モデルに固有のコスト加算トレードオフを活用して、最終的な精度を減らすことなく、計算の全体的なコストを大幅に削減する方法で、異なるレベルの精度のモデルを慎重に結合することによって達成されます。
提案されたアプローチは、$ 4 \ Times $ -TO-8 \ Times $の計算コストW.R.Tを達成します。
3つのベンチマークイメージングの問題にわたる標準的な手法。

要約(オリジナル)

Generative diffusion models have recently emerged as a powerful strategy to perform stochastic sampling in Bayesian inverse problems, delivering remarkably accurate solutions for a wide range of challenging applications. However, diffusion models often require a large number of neural function evaluations per sample in order to deliver accurate posterior samples. As a result, using diffusion models as stochastic samplers for Monte Carlo integration in Bayesian computation can be highly computationally expensive, particularly in applications that require a substantial number of Monte Carlo samples for conducting uncertainty quantification analyses. This cost is especially high in large-scale inverse problems such as computational imaging, which rely on large neural networks that are expensive to evaluate. With quantitative imaging applications in mind, this paper presents a Multilevel Monte Carlo strategy that significantly reduces the cost of Bayesian computation with diffusion models. This is achieved by exploiting cost-accuracy trade-offs inherent to diffusion models to carefully couple models of different levels of accuracy in a manner that significantly reduces the overall cost of the calculation, without reducing the final accuracy. The proposed approach achieves a $4\times$-to-$8\times$ reduction in computational cost w.r.t. standard techniques across three benchmark imaging problems.

arxiv情報

著者 Abdul-Lateef Haji-Ali,Marcelo Pereyra,Luke Shaw,Konstantinos Zygalakis
発行日 2025-05-07 14:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.CO | Bayesian computation with generative diffusion models by Multilevel Monte Carlo はコメントを受け付けていません

FA-KPConv: Introducing Euclidean Symmetries to KPConv via Frame Averaging

要約

3Dポイントクラウド分析のために広く採用されているバックボーンである、よく知られているKPCONVの上に構築されたニューラルネットワークアーキテクチャであるカーネルポイント畳み込み(FA-KPCONV)のフレーム平均化を提示します。
多くの一般的なタスクでは、ユークリッドの変換への不変性および/または等掘りが必要ですが、KPCONVベースのネットワークは、大規模なデータセットでトレーニングまたは重要なデータ増強を行うときにのみ、そのようなプロパティをほぼ達成できます。
フレーム平均化を使用して、KPCONVレイヤーで構築されたポイントクラウドニューラルネットワークを柔軟にカスタマイズできます。それらは、入力ポイントクラウドの翻訳、回転、および/または反射に正確に不変および/または同等にすることにより、それらを柔軟にカスタマイズできます。
FA-KPCONVは、既存のKPCONVベースのネットワークを単純に包むだけで、学習可能なパラメーターの数を維持し、入力情報を侵害しないように、幾何学的な事前知識を埋め込みます。
特に希少なトレーニングデータやランダムに回転したテストデータなどの困難なケースで、ポイントクラウド分類とポイントクラウド登録のためにこのような導入されたバイアスの利点を紹介します。

要約(オリジナル)

We present Frame-Averaging Kernel-Point Convolution (FA-KPConv), a neural network architecture built on top of the well-known KPConv, a widely adopted backbone for 3D point cloud analysis. Even though invariance and/or equivariance to Euclidean transformations are required for many common tasks, KPConv-based networks can only approximately achieve such properties when training on large datasets or with significant data augmentations. Using Frame Averaging, we allow to flexibly customize point cloud neural networks built with KPConv layers, by making them exactly invariant and/or equivariant to translations, rotations and/or reflections of the input point clouds. By simply wrapping around an existing KPConv-based network, FA-KPConv embeds geometrical prior knowledge into it while preserving the number of learnable parameters and not compromising any input information. We showcase the benefit of such an introduced bias for point cloud classification and point cloud registration, especially in challenging cases such as scarce training data or randomly rotated test data.

arxiv情報

著者 Ali Alawieh,Alexandru P. Condurache
発行日 2025-05-07 14:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FA-KPConv: Introducing Euclidean Symmetries to KPConv via Frame Averaging はコメントを受け付けていません

Efficient Flow Matching using Latent Variables

要約

フローマッチングモデルは、確率的生成モデルの間で画像生成タスクに大きな可能性を示しています。
継続的な正規化フローのアイデアに基づいて、フローマッチングモデルは、拡散モデルの輸送経路を、単純な事前分布からデータへの一般化します。
文献のほとんどのフローマッチングモデルは、標準ガウスのような単純なソース分布からの流れを学習するとき、ターゲットデータの基礎となる構造/マニホールドを明示的にモデル化しません。
これは、特に多くの高次元の現実世界のデータセットで非効率的な学習につながります。これは、しばしば低次元の多様体に存在します。
基礎となるマルチモーダル分布を含むデータを含むマニホールドを組み込むことの既存の戦略には、多くの場合、高価なトレーニングが必要であり、したがって、しばしば最適ではないパフォーマンスにつながります。
この目的のために、\ texttt {latent-cfm}を提示します。これは、前提条件の深い潜在変数モデルを使用してマルチモーダルデータ構造を組み込むための単純化されたトレーニング/推論戦略を提供します。
マルチモーダル合成データと広く使用されている画像ベンチマークデータセットの実験を通じて、\ texttt {latent-cfm}は、最先端のフローマッチングモデルよりも大幅に少ないトレーニング($ \ sim 50 \%$ seply)および計算で生成品質を改善することを示します。
2Dダーシーフローデータセットを使用して、私たちのアプローチが競合的アプローチよりも身体的に正確なサンプルを生成することを実証します。
さらに、潜在的な空間分析を通じて、私たちのアプローチは、潜在的な特徴を条件とする条件付き画像生成に使用できることを実証します。

要約(オリジナル)

Flow matching models have shown great potential in image generation tasks among probabilistic generative models. Building upon the ideas of continuous normalizing flows, flow matching models generalize the transport path of the diffusion models from a simple prior distribution to the data. Most flow matching models in the literature do not explicitly model the underlying structure/manifold in the target data when learning the flow from a simple source distribution like the standard Gaussian. This leads to inefficient learning, especially for many high-dimensional real-world datasets, which often reside in a low-dimensional manifold. Existing strategies of incorporating manifolds, including data with underlying multi-modal distribution, often require expensive training and hence frequently lead to suboptimal performance. To this end, we present \texttt{Latent-CFM}, which provides simplified training/inference strategies to incorporate multi-modal data structures using pretrained deep latent variable models. Through experiments on multi-modal synthetic data and widely used image benchmark datasets, we show that \texttt{Latent-CFM} exhibits improved generation quality with significantly less training ($\sim 50\%$ less in some cases) and computation than state-of-the-art flow matching models. Using a 2d Darcy flow dataset, we demonstrate that our approach generates more physically accurate samples than competitive approaches. In addition, through latent space analysis, we demonstrate that our approach can be used for conditional image generation conditioned on latent features.

arxiv情報

著者 Anirban Samaddar,Yixuan Sun,Viktor Nilsson,Sandeep Madireddy
発行日 2025-05-07 14:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Efficient Flow Matching using Latent Variables はコメントを受け付けていません

‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments

要約

視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにとって大きな課題をもたらします。
多くの研究では、大規模な言語および視覚言語モデルを使用して盲目を支援しますが、ほとんどが静的なコンテンツに焦点を当て、日常の活動などの動的および複雑な環境でリアルタイムの認識ニーズを満たすことができません。
より効果的なインテリジェントな支援を提供するには、高度な視覚理解技術を組み込むことが不可欠です。
リアルタイムのビジョンと音声相互作用ビデオオルムは強力なリアルタイムの視覚的理解を示していますが、視覚障害者を支援する際の有効性を体系的に評価した事前の研究はありません。
この作業では、最初のそのような評価を実施します。
まず、ベンチマークデータセット(VisassistDaily)を構築し、視覚障害のある個人向けの3つのカテゴリの支援タスクをカバーします:基本的なスキル、ホームライフタスク、ソーシャルライフタスク。
結果は、GPT-4oが最高のタスクの成功率を達成することを示しています。
次に、閉じたワールドとオープンワールドの両方のシナリオの両方でモデルを評価するためにユーザー調査を実施し、AssistiveコンテキストでVideollmsを適用するという実際的な課題をさらに調査します。
私たちが特定する重要な問題の1つは、動的環境での潜在的な危険性を知覚する上で現在のモデルが直面する難易度です。
これに対処するために、Safevidという名前の環境認識データセットを構築し、モデルが環境リスクを積極的に検出できるようにするポーリングメカニズムを導入します。
この作品が、この分野での将来の研究のための貴重な洞察とインスピレーションを提供することを願っています。

要約(オリジナル)

The visually impaired population, especially the severely visually impaired, is currently large in scale, and daily activities pose significant challenges for them. Although many studies use large language and vision-language models to assist the blind, most focus on static content and fail to meet real-time perception needs in dynamic and complex environments, such as daily activities. To provide them with more effective intelligent assistance, it is imperative to incorporate advanced visual understanding technologies. Although real-time vision and speech interaction VideoLLMs demonstrate strong real-time visual understanding, no prior work has systematically evaluated their effectiveness in assisting visually impaired individuals. In this work, we conduct the first such evaluation. First, we construct a benchmark dataset (VisAssistDaily), covering three categories of assistive tasks for visually impaired individuals: Basic Skills, Home Life Tasks, and Social Life Tasks. The results show that GPT-4o achieves the highest task success rate. Next, we conduct a user study to evaluate the models in both closed-world and open-world scenarios, further exploring the practical challenges of applying VideoLLMs in assistive contexts. One key issue we identify is the difficulty current models face in perceiving potential hazards in dynamic environments. To address this, we build an environment-awareness dataset named SafeVid and introduce a polling mechanism that enables the model to proactively detect environmental risks. We hope this work provides valuable insights and inspiration for future research in this field.

arxiv情報

著者 Ziyi Zhang,Zhen Sun,Zongmin Zhang,Zifan Peng,Yuemeng Zhao,Zichun Wang,Zeren Luo,Ruiting Zuo,Xinlei He
発行日 2025-05-07 15:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | ‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments はコメントを受け付けていません

Defining and Quantifying Creative Behavior in Popular Image Generators

要約

生成AIモデルの創造性は、決定的な答えなしに、過去数年間で科学的議論の対象となっています。
この論文では、実用的な観点から創造性を研究し、ユーザーが特定のタスクに適したAIモデルを選択するのに役立つ定量的対策を導入します。
多くの一般的な画像から画像間生成モデルに関する測定値を評価しましたが、この結果は、私たちの措置が人間の直観に適合することを示唆しています。

要約(オリジナル)

Creativity of generative AI models has been a subject of scientific debate in the last years, without a conclusive answer. In this paper, we study creativity from a practical perspective and introduce quantitative measures that help the user to choose a suitable AI model for a given task. We evaluated our measures on a number of popular image-to-image generation models, and the results of this suggest that our measures conform to human intuition.

arxiv情報

著者 Aditi Ramaswamy
発行日 2025-05-07 15:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.m | Defining and Quantifying Creative Behavior in Popular Image Generators はコメントを受け付けていません

Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition

要約

セキュリティの強化や認可された会場への非接触アクセスなど、いくつかのアプリケーションでは、エッジの公共の場所でのビデオの顔の検出と認識が必要です。
このペーパーは、顔の検出と認識に必要なタスクの同時性とパイプライニングを活用することにより、最近ではエッジGPUで利用可能なハードウェアエンジンの同時使用を最大化することを目的としています。
これには、ビデオストリームが通常GBPSイーサネットネットワークを介して運ばれるため、ほとんどの顔モニタリングアプリケーションで必要なビデオデコードタスクも含まれます。
これは、すべてのハードウェアエンジンを同時に探索する統一された自動化されたフレームワークがないため、通常、タスクが単一のエンジンに割り当てられる以前の作品よりも改善を構成します。
さらに、以前は、入力面は通常、静止画像またはデコード段階によって引き起こされるバースト遅延を見落とす生のビデオストリームに埋め込まれていました。
現実のビデオストリームの結果は、最近のNvidia Edge Orin GPU、より高いスループット、および約5%を占める約300 MWの消費電力をわずかに節約することで、リアルタイムのパフォーマンスの制約を満たしながら達成されていることを同時に示唆しています。
いくつかのビデオストリームを同時に考慮することにより、パフォーマンスはさらに高くなります。
顔認識タスクのテンソルRTフレームワークによって作成されたシャッフル層の数が低い場合、さらなるパフォーマンスの改善が得られた可能性があります。
したがって、このペーパーでは、既存のエッジGPUプロセッサのハードウェアの改善がさらに高くなることを示唆しており、パフォーマンスをさらに高めます。

要約(オリジナル)

Video face detection and recognition in public places at the edge is required in several applications, such as security reinforcement and contactless access to authorized venues. This paper aims to maximize the simultaneous usage of hardware engines available in edge GPUs nowadays by leveraging the concurrency and pipelining of tasks required for face detection and recognition. This also includes the video decoding task, which is required in most face monitoring applications as the video streams are usually carried via Gbps Ethernet network. This constitutes an improvement over previous works where the tasks are usually allocated to a single engine due to the lack of a unified and automated framework that simultaneously explores all hardware engines. In addition, previously, the input faces were usually embedded in still images or within raw video streams that overlook the burst delay caused by the decoding stage. The results on real-life video streams suggest that simultaneously using all the hardware engines available in the recent NVIDIA edge Orin GPU, higher throughput, and a slight saving of power consumption of around 300 mW, accounting for around 5%, have been achieved while satisfying the real-time performance constraint. The performance gets even higher by considering several video streams simultaneously. Further performance improvement could have been obtained if the number of shuffle layers that were created by the tensor RT framework for the face recognition task was lower. Thus, the paper suggests some hardware improvements to the existing edge GPU processors to enhance their performance even higher.

arxiv情報

著者 Asma Baobaid,Mahmoud Meribout
発行日 2025-05-07 15:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV, eess.IV | Leveraging Simultaneous Usage of Edge GPU Hardware Engines for Video Face Detection and Recognition はコメントを受け付けていません