SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model

要約

ビデオアノマリー検出(VAD)は、ビデオで予期しないイベントを特定することを目的としており、安全性が批判的なドメインで幅広いアプリケーションを持っています。
通常のサンプルのみで訓練された半監視方法は牽引力を獲得していますが、多くの場合、誤報率が高く、解釈が不十分です。
最近、ビジョン言語モデル(VLM)は強力なマルチモーダル推論機能を実証し、説明可能な異常検出の新しい機会を提供しています。
ただし、それらの高い計算コストとドメイン適応の欠如は、リアルタイムの展開と信頼性を妨げています。
人間の視覚的知覚における二重の補完的な経路に触発されて、私たちは、急速な異常検出器を遅い異常検出器(つまり検索拡張生成(RAG)強化VLM)と統合するハイブリッドフレームワークであるSlowFastVadを提案し、これらの制限に対処します。
具体的には、Fast Detectorは最初に粗い異常信頼スコアを提供し、ビデオ全体ではなく、あいまいなセグメントの小さなサブセットのみを提供しますが、精巧な検出と推論のために、より遅いさらに解釈可能なVLMによってさらに分析されます。
さらに、VLMSをドメイン固有のVADシナリオに適応させるために、VLMSによって推測される通常のサンプルや異常なパターンに基づいた通常のパターンを含む知識ベースを構築します。
推論中、関連するパターンが取得され、異常推論のプロンプトを増強するために使用されます。
最後に、高速および遅い検出器の異常な信頼をスムーズに融合して、異常検出の堅牢性を高めます。
4つのベンチマークでの広範な実験は、SlowFastVADが高速検出器と遅い検出器の両方の強度を効果的に組み合わせており、計算オーバーヘッドが大幅に低下して顕著な検出精度と解釈性を達成し、高い信頼性要件を備えた実際のVADアプリケーションに適していることを示しています。

要約(オリジナル)

Video anomaly detection (VAD) aims to identify unexpected events in videos and has wide applications in safety-critical domains. While semi-supervised methods trained on only normal samples have gained traction, they often suffer from high false alarm rates and poor interpretability. Recently, vision-language models (VLMs) have demonstrated strong multimodal reasoning capabilities, offering new opportunities for explainable anomaly detection. However, their high computational cost and lack of domain adaptation hinder real-time deployment and reliability. Inspired by dual complementary pathways in human visual perception, we propose SlowFastVAD, a hybrid framework that integrates a fast anomaly detector with a slow anomaly detector (namely a retrieval augmented generation (RAG) enhanced VLM), to address these limitations. Specifically, the fast detector first provides coarse anomaly confidence scores, and only a small subset of ambiguous segments, rather than the entire video, is further analyzed by the slower yet more interpretable VLM for elaborate detection and reasoning. Furthermore, to adapt VLMs to domain-specific VAD scenarios, we construct a knowledge base including normal patterns based on few normal samples and abnormal patterns inferred by VLMs. During inference, relevant patterns are retrieved and used to augment prompts for anomaly reasoning. Finally, we smoothly fuse the anomaly confidence of fast and slow detectors to enhance robustness of anomaly detection. Extensive experiments on four benchmarks demonstrate that SlowFastVAD effectively combines the strengths of both fast and slow detectors, and achieves remarkable detection accuracy and interpretability with significantly reduced computational overhead, making it well-suited for real-world VAD applications with high reliability requirements.

arxiv情報

著者 Zongcan Ding,Haodong Zhang,Peng Wu,Guansong Pang,Zhiwei Yang,Peng Wang,Yanning Zhang
発行日 2025-04-14 15:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model はコメントを受け付けていません

InstructEngine: Instruction-driven Text-to-Image Alignment

要約

補強材/AIフィードバック(RLHF/RLAIF)からの学習は、テキストから画像モデルの優先アラインメントのために広く利用されています。
既存の方法は、データとアルゴリズムの両方の観点から特定の制限に直面しています。
トレーニングデータの場合、ほとんどのアプローチは、ジェネレーターを直接微調整するか、トレーニング報酬モデルをトレーニングするためにトレーニングの信号を提供することにより、手動注釈付き選好データに依存しています。
ただし、注釈コストが高いため、スケールアップが困難になり、報酬モデルは追加の計算を消費し、精度を保証できません。
アルゴリズムの観点から、ほとんどの方法はテキストの値を無視し、画像フィードバックを比較信号としてのみ使用します。これは非効率的でまばらです。
これらの欠点を軽減するために、InstructEngineフレームワークを提案します。
注釈コストに関して、最初にテキストから画像の生成のための分類法を構築し、次にそれに基づいて自動化されたデータ構築パイプラインを開発します。
高度な大規模なマルチモーダルモデルと人間定義のルールを活用して、25Kのテキストイメージ優先ペアを生成します。
最後に、相互に類似したサンプルを相互に匹敵するペアに整理することにより、データ効率を改良する相互検証アライメント法を導入します。
Drawbenchの評価は、InstruceEntingineがSD V1.5とSDXLのパフォーマンスを10.53%および5.30%改善し、最先端のベースラインを上回ることを示しており、Ablation StudyはInstractEngineのすべてのコンポーネントの利点を確認しています。
人間のレビューで50%以上の勝利率は、Instructentengineが人間の好みとより適合していることを証明しています。

要約(オリジナル)

Reinforcement Learning from Human/AI Feedback (RLHF/RLAIF) has been extensively utilized for preference alignment of text-to-image models. Existing methods face certain limitations in terms of both data and algorithm. For training data, most approaches rely on manual annotated preference data, either by directly fine-tuning the generators or by training reward models to provide training signals. However, the high annotation cost makes them difficult to scale up, the reward model consumes extra computation and cannot guarantee accuracy. From an algorithmic perspective, most methods neglect the value of text and only take the image feedback as a comparative signal, which is inefficient and sparse. To alleviate these drawbacks, we propose the InstructEngine framework. Regarding annotation cost, we first construct a taxonomy for text-to-image generation, then develop an automated data construction pipeline based on it. Leveraging advanced large multimodal models and human-defined rules, we generate 25K text-image preference pairs. Finally, we introduce cross-validation alignment method, which refines data efficiency by organizing semantically analogous samples into mutually comparable pairs. Evaluations on DrawBench demonstrate that InstructEngine improves SD v1.5 and SDXL’s performance by 10.53% and 5.30%, outperforming state-of-the-art baselines, with ablation study confirming the benefits of InstructEngine’s all components. A win rate of over 50% in human reviews also proves that InstructEngine better aligns with human preferences.

arxiv情報

著者 Xingyu Lu,Yuhang Hu,YiFan Zhang,Kaiyu Jiang,Changyi Liu,Tianke Zhang,Jinpeng Wang,Bin Wen,Chun Yuan,Fan Yang,Tingting Gao,Di Zhang
発行日 2025-04-14 15:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InstructEngine: Instruction-driven Text-to-Image Alignment はコメントを受け付けていません

HOMER: Homography-Based Efficient Multi-view 3D Object Removal

要約

3Dオブジェクトの削除は、3Dシーンの編集で重要なサブタスクであり、シーンの理解、拡張現実、ロボット工学の幅広いアプリケーションがあります。
ただし、既存の方法は、マルチビュー設定での一貫性、使いやすさ、計算効率の間で望ましいバランスをとるのに苦労しています。
これらの制限は、主に、ソースビューでの直感的でないユーザーの相互作用、非効率的なマルチビューオブジェクトマスク生成、計算上の高価な開始手順、およびさまざまな放射輝度フィールド表現にわたる適用性の欠如によるものです。
これらの課題に対処するために、マルチビューオブジェクトマスクの生成と開始の品質と効率を改善する新しいパイプラインを提案します。
私たちの方法は、ソースビューに直感的な領域ベースの相互作用メカニズムを導入し、カメラのポーズまたは追加のモデルトレーニングの必要性を排除します。
当社の軽量HOMMモジュールは、効率が向上した高品質のマルチビューマスク伝播を実現するために採用されています。
開始段階では、選択したキービューでのみ開始し、ホモグラフィベースのマッピングを介して他のビューに結果を伝播することにより、さらに計算コストを削減します。
私たちのパイプラインは、NERFや3Dガウスのスプラッティングなど、さまざまな輝きフィールドフレームワークと互換性があり、実際のシナリオの一般化と実用性の向上を示しています。
さらに、既存のデータセットよりもオブジェクトの多様性と視点のバリエーションが大きい新しい3Dマルチオブジェクト除去データセットを提示します。
パブリックベンチマークと提案されたデータセットでの実験は、この方法が最先端のパフォーマンスを達成しながら、ランタイムを主要なベースラインで必要とする5分の1に短縮することを示しています。

要約(オリジナル)

3D object removal is an important sub-task in 3D scene editing, with broad applications in scene understanding, augmented reality, and robotics. However, existing methods struggle to achieve a desirable balance among consistency, usability, and computational efficiency in multi-view settings. These limitations are primarily due to unintuitive user interaction in the source view, inefficient multi-view object mask generation, computationally expensive inpainting procedures, and a lack of applicability across different radiance field representations. To address these challenges, we propose a novel pipeline that improves the quality and efficiency of multi-view object mask generation and inpainting. Our method introduces an intuitive region-based interaction mechanism in the source view and eliminates the need for camera poses or extra model training. Our lightweight HoMM module is employed to achieve high-quality multi-view mask propagation with enhanced efficiency. In the inpainting stage, we further reduce computational costs by performing inpainting only on selected key views and propagating the results to other views via homography-based mapping. Our pipeline is compatible with a variety of radiance field frameworks, including NeRF and 3D Gaussian Splatting, demonstrating improved generalizability and practicality in real-world scenarios. Additionally, we present a new 3D multi-object removal dataset with greater object diversity and viewpoint variation than existing datasets. Experiments on public benchmarks and our proposed dataset show that our method achieves state-of-the-art performance while reducing runtime to one-fifth of that required by leading baselines.

arxiv情報

著者 Jingcheng Ni,Weiguang Zhao,Daniel Wang,Ziyao Zeng,Chenyu You,Alex Wong,Kaizhu Huang
発行日 2025-04-14 15:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HOMER: Homography-Based Efficient Multi-view 3D Object Removal はコメントを受け付けていません

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

要約

低光光シーンでの新規ビュー合成(NVS)は、重度のノイズ、低ダイナミックレンジ(LDR)、および信頼性の低い初期化を特徴とする劣化した入力のために、重要な課題のままです。
最近のNERFベースのアプローチでは有望な結果が示されていますが、ほとんどは高い計算コストに苦しんでおり、一部の人は慎重にキャプチャされたデータまたは前処理されたデータ(生のセンサー入力や多重暴露シーケンスなど)に依存して、実用性を厳しく制限します。
対照的に、3Dガウスの飛び散(3DGS)により、競争力のある視覚的忠実度を備えたリアルタイムレンダリングが可能になります。
ただし、既存の3DGSベースの方法は、低光のSRGB入力と闘い、不安定なガウス初期化と効果のないノイズ抑制をもたらします。
これらの課題に対処するために、LL-Gaussianを提案します。LL-Gaussianは、低光のSRGB画像からの3D再構成と強化のための新しいフレームワークであり、擬似正常光の新規ビューの統合を可能にします。
私たちの方法では、3つの重要な革新を紹介します。1)学習ベースのMVSアプローチから密なプライアーを活用して高品質の初期点雲を生成するエンドツーエンドの低光ガウス初期化モジュール(LLGIM)。
2)一時的な干渉から固有のシーン特性(反射率と照明)を解き放ち、安定した解釈可能な最適化を可能にするデュアルブランチガウス分解モデル。
3)分解と強化を共同で操縦する前の物理的制約と拡散の両方によって導かれる監視されていない最適化戦略。
さらに、極端な低光環境で収集された挑戦的なデータセットを提供し、LL-Gaussianの有効性を実証します。
最先端のNERFベースの方法と比較して、LL-Gaussianは推論の最大2,000倍を達成し、トレーニング時間をわずか2%に短縮し、優れた再構築と品質を提供します。

要約(オリジナル)

Novel view synthesis (NVS) in low-light scenes remains a significant challenge due to degraded inputs characterized by severe noise, low dynamic range (LDR) and unreliable initialization. While recent NeRF-based approaches have shown promising results, most suffer from high computational costs, and some rely on carefully captured or pre-processed data–such as RAW sensor inputs or multi-exposure sequences–which severely limits their practicality. In contrast, 3D Gaussian Splatting (3DGS) enables real-time rendering with competitive visual fidelity; however, existing 3DGS-based methods struggle with low-light sRGB inputs, resulting in unstable Gaussian initialization and ineffective noise suppression. To address these challenges, we propose LL-Gaussian, a novel framework for 3D reconstruction and enhancement from low-light sRGB images, enabling pseudo normal-light novel view synthesis. Our method introduces three key innovations: 1) an end-to-end Low-Light Gaussian Initialization Module (LLGIM) that leverages dense priors from learning-based MVS approach to generate high-quality initial point clouds; 2) a dual-branch Gaussian decomposition model that disentangles intrinsic scene properties (reflectance and illumination) from transient interference, enabling stable and interpretable optimization; 3) an unsupervised optimization strategy guided by both physical constrains and diffusion prior to jointly steer decomposition and enhancement. Additionally, we contribute a challenging dataset collected in extreme low-light environments and demonstrate the effectiveness of LL-Gaussian. Compared to state-of-the-art NeRF-based methods, LL-Gaussian achieves up to 2,000 times faster inference and reduces training time to just 2%, while delivering superior reconstruction and rendering quality.

arxiv情報

著者 Hao Sun,Fenggen Yu,Huiyao Xu,Tao Zhang,Changqing Zou
発行日 2025-04-14 15:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis はコメントを受け付けていません

PSGait: Gait Recognition using Parsing Skeleton

要約

歩行認識は、その非侵入性と閉塞への回復力のために、堅牢な生体認証モダリティとして浮上しています。
通常、従来の歩行認識方法は、通常、シルエットまたはスケルトンに依存しています。
制御された実験室環境に対する歩行認識の成功にもかかわらず、彼らは通常、歩行表現のための情報エントロピーが限られているため、実際のシナリオでは失敗します。
野生で正確な歩行認識を実現するために、ペルシングスケルトンという名前の新しい歩行表現を提案します。
この表現は、細粒の身体のダイナミクスをキャプチャするためにスケルトン誘導のヒト解析方法を革新的に導入しているため、歩行中に細粒の人間部品の形状とダイナミクスをコードするための情報エントロピーがはるかに高くなります。
さらに、分析スケルトン表現の能力を効果的に調査するために、PSGAITという名前の新しい解析スケルトンベースの歩行認識フレームワークを提案します。
これらの2つのモダリティを融合することにより、結果の画像シーケンスは、個々の分化を強化するために歩行認識モデルに供給されます。
モデルを評価するために、さまざまなデータセットで包括的なベンチマークを実施します。
PSGAITは、スケルトンとシルエットの両方の入力を利用しながら、計算リソースを大幅に削減する既存の最先端のマルチモーダルメソッドよりも優れています。
さらに、プラグアンドプレイ方法として、PSGAITは、さまざまな歩行認識モデルでランク1の精度が10.9%の最大改善につながります。
これらの結果は、分析骨格が野生で歩行認識のために軽量で効果的で非常に一般化可能な表現を提供することを示しています。

要約(オリジナル)

Gait recognition has emerged as a robust biometric modality due to its non-intrusive nature and resilience to occlusion. Conventional gait recognition methods typically rely on silhouettes or skeletons. Despite their success in gait recognition for controlled laboratory environments, they usually fail in real-world scenarios due to their limited information entropy for gait representations. To achieve accurate gait recognition in the wild, we propose a novel gait representation, named Parsing Skeleton. This representation innovatively introduces the skeleton-guided human parsing method to capture fine-grained body dynamics, so they have much higher information entropy to encode the shapes and dynamics of fine-grained human parts during walking. Moreover, to effectively explore the capability of the Parsing Skeleton representation, we propose a novel Parsing Skeleton-based gait recognition framework, named PSGait, which takes Parsing Skeletons and silhouettes as input. By fusing these two modalities, the resulting image sequences are fed into gait recognition models for enhanced individual differentiation. We conduct comprehensive benchmarks on various datasets to evaluate our model. PSGait outperforms existing state-of-the-art multimodal methods that utilize both skeleton and silhouette inputs while significantly reducing computational resources. Furthermore, as a plug-and-play method, PSGait leads to a maximum improvement of 10.9% in Rank-1 accuracy across various gait recognition models. These results demonstrate that Parsing Skeleton offers a lightweight, effective, and highly generalizable representation for gait recognition in the wild.

arxiv情報

著者 Hangrui Xu,Chuanrui Zhang,Zhengxian Wu,Peng Jiao,Haoqian Wang
発行日 2025-04-14 15:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PSGait: Gait Recognition using Parsing Skeleton はコメントを受け付けていません

Benchmarking 3D Human Pose Estimation Models Under Occlusions

要約

このペーパーでは、閉塞、カメラの位置、および作用の変動に対する既存のモデルの堅牢性と感度を分析することにより、3Dヒトポーズ推定(HPE)の重要な課題に対処します。
マルチカメラのセットアップといくつかの閉塞タイプを備えた多様なシナリオを含む、新しい合成データセットであるBlendMimic3Dを使用して、いくつかの最先端モデルで特定のテストを実施します。
私たちの研究は、2D検出モデルと3D HPEモデルの頻繁な入力に一般的に使用されるCOCOなどの一般的なデータセットとCOCOなどの2Dデータセットの間のキーポイント形式の矛盾に焦点を当てています。
私たちの作品は、標準条件のみで訓練されたモデルのパフォーマンスとモデルの一般性に対する閉塞の影響を探ります。
この調査結果は、閉塞とカメラの設定に対する有意な感度を示唆しており、実際の変動性と閉塞シナリオによりよく適応するモデルの必要性を明らかにしています。
この研究は、複雑な環境での3D HPEシステムの忠実度と適用性を改善するための継続的な取り組みに貢献しました。

要約(オリジナル)

This paper addresses critical challenges in 3D Human Pose Estimation (HPE) by analyzing the robustness and sensitivity of existing models to occlusions, camera position, and action variability. Using a novel synthetic dataset, BlendMimic3D, which includes diverse scenarios with multi-camera setups and several occlusion types, we conduct specific tests on several state-of-the-art models. Our study focuses on the discrepancy in keypoint formats between common datasets such as Human3.6M, and 2D datasets such as COCO, commonly used for 2D detection models and frequently input of 3D HPE models. Our work explores the impact of occlusions on model performance and the generality of models trained exclusively under standard conditions. The findings suggest significant sensitivity to occlusions and camera settings, revealing a need for models that better adapt to real-world variability and occlusion scenarios. This research contributed to ongoing efforts to improve the fidelity and applicability of 3D HPE systems in complex environments.

arxiv情報

著者 Filipa Lino,Carlos Santiago,Manuel Marques
発行日 2025-04-14 16:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking 3D Human Pose Estimation Models Under Occlusions はコメントを受け付けていません

Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis

要約

マルチモーダルファンデーションモデルは、複数のモダリティから情報を統合することにより、機能表現を大幅に改善し、より広範なアプリケーションに非常に適しています。
ただし、知覚を理解するためのマルチモーダルの顔の表現の調査は限られています。
アクションユニット(AUS)や感情などの顔の状態を理解して分析するには、視覚的および言語的モダリティを橋渡しする包括的で堅牢なフレームワークが必要です。
この論文では、マルチモーダルフェイシャルステート分析のための包括的なパイプラインを紹介します。
まず、GPT-4oを活用することにより、アクションユニット(AU)と感情の説明を組み込む、顔の詳細なマルチレベル言語の説明を生成することにより、新しいマルチモーダルフェイスデータセット(MFA)をコンパイルします。
第二に、アクションユニット(AU)と感情認識に合わせた新しいマルチレベルマルチモーダルフェイスファンデーションモデル(MF^2)を紹介します。
私たちのモデルには、フェイスイメージのローカルレベルとグローバルレベルの両方の両方で包括的な視覚機能モデリングが組み込まれており、詳細な顔の外観を表す能力が向上しています。
この設計は、視覚表現を構造化されたAUおよび感情の説明に合わせて、効果的なクロスモーダル統合を確保します。
第三に、さまざまなタスクとデータセットにMF^2を効率的に適応させるデカップされた微調整ネットワーク(DFN)を開発します。
このアプローチは、計算オーバーヘッドを削減するだけでなく、ファンデーションモデルの適用性を多様なシナリオに拡大します。
実験では、AUおよび感情検出タスクの優れたパフォーマンスが示されています。

要約(オリジナル)

Multimodal foundation models have significantly improved feature representation by integrating information from multiple modalities, making them highly suitable for a broader set of applications. However, the exploration of multimodal facial representation for understanding perception has been limited. Understanding and analyzing facial states, such as Action Units (AUs) and emotions, require a comprehensive and robust framework that bridges visual and linguistic modalities. In this paper, we present a comprehensive pipeline for multimodal facial state analysis. First, we compile a new Multimodal Face Dataset (MFA) by generating detailed multilevel language descriptions of face, incorporating Action Unit (AU) and emotion descriptions, by leveraging GPT-4o. Second, we introduce a novel Multilevel Multimodal Face Foundation model (MF^2) tailored for Action Unit (AU) and emotion recognition. Our model incorporates comprehensive visual feature modeling at both local and global levels of face image, enhancing its ability to represent detailed facial appearances. This design aligns visual representations with structured AU and emotion descriptions, ensuring effective cross-modal integration. Third, we develop a Decoupled Fine-Tuning Network (DFN) that efficiently adapts MF^2 across various tasks and datasets. This approach not only reduces computational overhead but also broadens the applicability of the foundation model to diverse scenarios. Experimentation show superior performance for AU and emotion detection tasks.

arxiv情報

著者 Kaiwen Zheng,Xuri Ge,Junchen Fu,Jun Peng,Joemon M. Jose
発行日 2025-04-14 16:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis はコメントを受け付けていません

GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion

要約

スマートフォンなどのコモディティデバイスが撮影した単眼動画から、アニメーション可能な3Dガウスアバターを再構築するための新しいアプローチを提案します。
このような録音からのフォトリアリックな3Dヘッドアバターの再構築は、観察が限られているために困難です。
この問題に対処するために、マルチビューヘッド拡散モデルを導入し、その前領域を活用して欠落している領域を埋め、ガウスのスプラッティングレンダリングのビューの一貫性を確保します。
正確な視点制御を有効にするために、火炎ベースのヘッド再構築からレンダリングされた通常のマップを使用して、ピクセルアライメント誘導バイアスを提供します。
また、顔のアイデンティティと外観の詳細を保存するために、入力画像から抽出されたVAE特徴の拡散モデルを条件付けます。
ガウスアバターの再構築については、誤って除去された画像を擬似グラウンドの真理として使用して、過剰飽和度の問題を効果的に緩和することにより、マルチビュー拡散前の拡散前を蒸留します。
フォトリアリズムをさらに向上させるために、潜在的なアップサンプリング前のプライアーを適用して、画像にデコードする前に、薄い潜在性を改良します。
Nersemble Datasetでの方法を評価し、GAFが新しいビュー合成における以前の最先端の方法よりも優れていることを示しています。
さらに、コモディティデバイスで撮影された単眼ビデオからのより忠実度のアバター再構成を示します。

要約(オリジナル)

We propose a novel approach for reconstructing animatable 3D Gaussian avatars from monocular videos captured by commodity devices like smartphones. Photorealistic 3D head avatar reconstruction from such recordings is challenging due to limited observations, which leaves unobserved regions under-constrained and can lead to artifacts in novel views. To address this problem, we introduce a multi-view head diffusion model, leveraging its priors to fill in missing regions and ensure view consistency in Gaussian splatting renderings. To enable precise viewpoint control, we use normal maps rendered from FLAME-based head reconstruction, which provides pixel-aligned inductive biases. We also condition the diffusion model on VAE features extracted from the input image to preserve facial identity and appearance details. For Gaussian avatar reconstruction, we distill multi-view diffusion priors by using iteratively denoised images as pseudo-ground truths, effectively mitigating over-saturation issues. To further improve photorealism, we apply latent upsampling priors to refine the denoised latent before decoding it into an image. We evaluate our method on the NeRSemble dataset, showing that GAF outperforms previous state-of-the-art methods in novel view synthesis. Furthermore, we demonstrate higher-fidelity avatar reconstructions from monocular videos captured on commodity devices.

arxiv情報

著者 Jiapeng Tang,Davide Davoli,Tobias Kirschstein,Liam Schoneveld,Matthias Niessner
発行日 2025-04-14 16:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion はコメントを受け付けていません

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

要約

基礎ビジョン言語モデル(VLM)の最近の進歩により、コンピュータービジョンタスクの評価パラダイムが再構築されました。
これらの基礎モデル、特にCLIPは、オープンボキャブラリーセマンティックセグメンテーション(OVSS)を含む、オープンボキャブラリーコンピュータービジョンタスクの研究を加速しています。
初期の結果は有望ですが、VLMの密な予測能力は依然としてさらなる改善が必要です。
この研究では、新しいモジュールと変更を導入することにより、クリップのセマンティックセグメンテーションパフォーマンスを強化します。1)VITの最後のレイヤーのアーキテクチャの変化と、最終層の中間層からの注意マップの組み込み、2)画像エンジニアリング:入力画像表現を豊かにするためのデータ増強、3)を使用して大規模な言語モデル(LLMS)を使用して、3)
オープンボキャブラリー機能。
当社のトレーニングフリーの方法であるITACLIPは、COCO-STUFF、COCO-Object、Pascal Context、Pascal VOCなどのセグメンテーションベンチマークに関する現在の最先端のアプローチよりも優れています。
私たちのコードは、https://github.com/m-arda-aydn/itaclipで入手できます。

要約(オリジナル)

Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP’s open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.

arxiv情報

著者 M. Arda Aydın,Efe Mert Çırpar,Elvin Abdinli,Gozde Unal,Yusuf H. Sahin
発行日 2025-04-14 16:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements はコメントを受け付けていません

Patch and Shuffle: A Preprocessing Technique for Texture Classification in Autonomous Cementitious Fabrication

要約

自律的な製造システムは、建設と製造を変革していますが、印刷エラーに対して脆弱なままです。
テクスチャ分類は、セメント質の製造中にリアルタイムの監視と調整を可能にするコンピュータービジョンシステムの重要なコンポーネントです。
従来の分類方法は、多くの場合、グローバルな画像機能に依存しているため、低レベルのテクスチャではなく、モデルをセマンティックコンテンツにバイアスすることができます。
この論文では、「パッチとシャッフル」と呼ばれる新しい前処理技術を紹介します。これは、画像を小さなパッチに入力し、シャッフルし、分類前にごちゃごちゃした画像を再構築します。
この変換によりセマンティックコンテキストが削除され、分類器がローカルテクスチャ機能に依存するように強制します。
ResNet-18ベースのアーキテクチャを使用して、押し出されたセメント画像のデータセットでこのアプローチを評価します。
私たちの実験は、パッチとシャッフル法を標準のパイプラインと比較し、他のすべての要因を一定に保ちます。
結果は、精度の大幅な改善を示しています。パッチとシャッフルモデルは、ベースラインの72.46%に対して90.64%のテスト精度を達成しました。
これらの調査結果は、グローバル構造を破壊すると、テクスチャベースの分類タスクのパフォーマンスが向上することを示唆しています。
この方法は、低レベルの特徴が高レベルのセマンティクスよりも重要な広範なビジョンタスクに影響を与えます。
この手法は、製造監視から医療イメージングまで、アプリケーションの分類を改善する可能性があります。

要約(オリジナル)

Autonomous fabrication systems are transforming construction and manufacturing, yet they remain vulnerable to print errors. Texture classification is a key component of computer vision systems that enable real-time monitoring and adjustment during cementitious fabrication. Traditional classification methods often rely on global image features, which can bias the model toward semantic content rather than low-level textures. In this paper, we introduce a novel preprocessing technique called ‘patch and shuffle,’ which segments input images into smaller patches, shuffles them, and reconstructs a jumbled image before classification. This transformation removes semantic context, forcing the classifier to rely on local texture features. We evaluate this approach on a dataset of extruded cement images, using a ResNet-18-based architecture. Our experiments compare the patch and shuffle method to a standard pipeline, holding all other factors constant. Results show a significant improvement in accuracy: the patch and shuffle model achieved 90.64% test accuracy versus 72.46% for the baseline. These findings suggest that disrupting global structure enhances performance in texture-based classification tasks. This method has implications for broader vision tasks where low-level features matter more than high-level semantics. The technique may improve classification in applications ranging from fabrication monitoring to medical imaging.

arxiv情報

著者 Jeremiah Giordani
発行日 2025-04-14 16:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Patch and Shuffle: A Preprocessing Technique for Texture Classification in Autonomous Cementitious Fabrication はコメントを受け付けていません