HOMER: Homography-Based Efficient Multi-view 3D Object Removal

要約

3Dオブジェクトの削除は、3Dシーンの編集で重要なサブタスクであり、シーンの理解、拡張現実、ロボット工学の幅広いアプリケーションがあります。
ただし、既存の方法は、マルチビュー設定での一貫性、使いやすさ、計算効率の間で望ましいバランスをとるのに苦労しています。
これらの制限は、主に、ソースビューでの直感的でないユーザーの相互作用、非効率的なマルチビューオブジェクトマスク生成、計算上の高価な開始手順、およびさまざまな放射輝度フィールド表現にわたる適用性の欠如によるものです。
これらの課題に対処するために、マルチビューオブジェクトマスクの生成と開始の品質と効率を改善する新しいパイプラインを提案します。
私たちの方法は、ソースビューに直感的な領域ベースの相互作用メカニズムを導入し、カメラのポーズまたは追加のモデルトレーニングの必要性を排除します。
当社の軽量HOMMモジュールは、効率が向上した高品質のマルチビューマスク伝播を実現するために採用されています。
開始段階では、選択したキービューでのみ開始し、ホモグラフィベースのマッピングを介して他のビューに結果を伝播することにより、さらに計算コストを削減します。
私たちのパイプラインは、NERFや3Dガウスのスプラッティングなど、さまざまな輝きフィールドフレームワークと互換性があり、実際のシナリオの一般化と実用性の向上を示しています。
さらに、既存のデータセットよりもオブジェクトの多様性と視点のバリエーションが大きい新しい3Dマルチオブジェクト除去データセットを提示します。
パブリックベンチマークと提案されたデータセットでの実験は、この方法が最先端のパフォーマンスを達成しながら、ランタイムを主要なベースラインで必要とする5分の1に短縮することを示しています。

要約(オリジナル)

3D object removal is an important sub-task in 3D scene editing, with broad applications in scene understanding, augmented reality, and robotics. However, existing methods struggle to achieve a desirable balance among consistency, usability, and computational efficiency in multi-view settings. These limitations are primarily due to unintuitive user interaction in the source view, inefficient multi-view object mask generation, computationally expensive inpainting procedures, and a lack of applicability across different radiance field representations. To address these challenges, we propose a novel pipeline that improves the quality and efficiency of multi-view object mask generation and inpainting. Our method introduces an intuitive region-based interaction mechanism in the source view and eliminates the need for camera poses or extra model training. Our lightweight HoMM module is employed to achieve high-quality multi-view mask propagation with enhanced efficiency. In the inpainting stage, we further reduce computational costs by performing inpainting only on selected key views and propagating the results to other views via homography-based mapping. Our pipeline is compatible with a variety of radiance field frameworks, including NeRF and 3D Gaussian Splatting, demonstrating improved generalizability and practicality in real-world scenarios. Additionally, we present a new 3D multi-object removal dataset with greater object diversity and viewpoint variation than existing datasets. Experiments on public benchmarks and our proposed dataset show that our method achieves state-of-the-art performance while reducing runtime to one-fifth of that required by leading baselines.

arxiv情報

著者 Jingcheng Ni,Weiguang Zhao,Daniel Wang,Ziyao Zeng,Chenyu You,Alex Wong,Kaizhu Huang
発行日 2025-04-14 15:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HOMER: Homography-Based Efficient Multi-view 3D Object Removal はコメントを受け付けていません

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

要約

低光光シーンでの新規ビュー合成(NVS)は、重度のノイズ、低ダイナミックレンジ(LDR)、および信頼性の低い初期化を特徴とする劣化した入力のために、重要な課題のままです。
最近のNERFベースのアプローチでは有望な結果が示されていますが、ほとんどは高い計算コストに苦しんでおり、一部の人は慎重にキャプチャされたデータまたは前処理されたデータ(生のセンサー入力や多重暴露シーケンスなど)に依存して、実用性を厳しく制限します。
対照的に、3Dガウスの飛び散(3DGS)により、競争力のある視覚的忠実度を備えたリアルタイムレンダリングが可能になります。
ただし、既存の3DGSベースの方法は、低光のSRGB入力と闘い、不安定なガウス初期化と効果のないノイズ抑制をもたらします。
これらの課題に対処するために、LL-Gaussianを提案します。LL-Gaussianは、低光のSRGB画像からの3D再構成と強化のための新しいフレームワークであり、擬似正常光の新規ビューの統合を可能にします。
私たちの方法では、3つの重要な革新を紹介します。1)学習ベースのMVSアプローチから密なプライアーを活用して高品質の初期点雲を生成するエンドツーエンドの低光ガウス初期化モジュール(LLGIM)。
2)一時的な干渉から固有のシーン特性(反射率と照明)を解き放ち、安定した解釈可能な最適化を可能にするデュアルブランチガウス分解モデル。
3)分解と強化を共同で操縦する前の物理的制約と拡散の両方によって導かれる監視されていない最適化戦略。
さらに、極端な低光環境で収集された挑戦的なデータセットを提供し、LL-Gaussianの有効性を実証します。
最先端のNERFベースの方法と比較して、LL-Gaussianは推論の最大2,000倍を達成し、トレーニング時間をわずか2%に短縮し、優れた再構築と品質を提供します。

要約(オリジナル)

Novel view synthesis (NVS) in low-light scenes remains a significant challenge due to degraded inputs characterized by severe noise, low dynamic range (LDR) and unreliable initialization. While recent NeRF-based approaches have shown promising results, most suffer from high computational costs, and some rely on carefully captured or pre-processed data–such as RAW sensor inputs or multi-exposure sequences–which severely limits their practicality. In contrast, 3D Gaussian Splatting (3DGS) enables real-time rendering with competitive visual fidelity; however, existing 3DGS-based methods struggle with low-light sRGB inputs, resulting in unstable Gaussian initialization and ineffective noise suppression. To address these challenges, we propose LL-Gaussian, a novel framework for 3D reconstruction and enhancement from low-light sRGB images, enabling pseudo normal-light novel view synthesis. Our method introduces three key innovations: 1) an end-to-end Low-Light Gaussian Initialization Module (LLGIM) that leverages dense priors from learning-based MVS approach to generate high-quality initial point clouds; 2) a dual-branch Gaussian decomposition model that disentangles intrinsic scene properties (reflectance and illumination) from transient interference, enabling stable and interpretable optimization; 3) an unsupervised optimization strategy guided by both physical constrains and diffusion prior to jointly steer decomposition and enhancement. Additionally, we contribute a challenging dataset collected in extreme low-light environments and demonstrate the effectiveness of LL-Gaussian. Compared to state-of-the-art NeRF-based methods, LL-Gaussian achieves up to 2,000 times faster inference and reduces training time to just 2%, while delivering superior reconstruction and rendering quality.

arxiv情報

著者 Hao Sun,Fenggen Yu,Huiyao Xu,Tao Zhang,Changqing Zou
発行日 2025-04-14 15:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis はコメントを受け付けていません

PSGait: Gait Recognition using Parsing Skeleton

要約

歩行認識は、その非侵入性と閉塞への回復力のために、堅牢な生体認証モダリティとして浮上しています。
通常、従来の歩行認識方法は、通常、シルエットまたはスケルトンに依存しています。
制御された実験室環境に対する歩行認識の成功にもかかわらず、彼らは通常、歩行表現のための情報エントロピーが限られているため、実際のシナリオでは失敗します。
野生で正確な歩行認識を実現するために、ペルシングスケルトンという名前の新しい歩行表現を提案します。
この表現は、細粒の身体のダイナミクスをキャプチャするためにスケルトン誘導のヒト解析方法を革新的に導入しているため、歩行中に細粒の人間部品の形状とダイナミクスをコードするための情報エントロピーがはるかに高くなります。
さらに、分析スケルトン表現の能力を効果的に調査するために、PSGAITという名前の新しい解析スケルトンベースの歩行認識フレームワークを提案します。
これらの2つのモダリティを融合することにより、結果の画像シーケンスは、個々の分化を強化するために歩行認識モデルに供給されます。
モデルを評価するために、さまざまなデータセットで包括的なベンチマークを実施します。
PSGAITは、スケルトンとシルエットの両方の入力を利用しながら、計算リソースを大幅に削減する既存の最先端のマルチモーダルメソッドよりも優れています。
さらに、プラグアンドプレイ方法として、PSGAITは、さまざまな歩行認識モデルでランク1の精度が10.9%の最大改善につながります。
これらの結果は、分析骨格が野生で歩行認識のために軽量で効果的で非常に一般化可能な表現を提供することを示しています。

要約(オリジナル)

Gait recognition has emerged as a robust biometric modality due to its non-intrusive nature and resilience to occlusion. Conventional gait recognition methods typically rely on silhouettes or skeletons. Despite their success in gait recognition for controlled laboratory environments, they usually fail in real-world scenarios due to their limited information entropy for gait representations. To achieve accurate gait recognition in the wild, we propose a novel gait representation, named Parsing Skeleton. This representation innovatively introduces the skeleton-guided human parsing method to capture fine-grained body dynamics, so they have much higher information entropy to encode the shapes and dynamics of fine-grained human parts during walking. Moreover, to effectively explore the capability of the Parsing Skeleton representation, we propose a novel Parsing Skeleton-based gait recognition framework, named PSGait, which takes Parsing Skeletons and silhouettes as input. By fusing these two modalities, the resulting image sequences are fed into gait recognition models for enhanced individual differentiation. We conduct comprehensive benchmarks on various datasets to evaluate our model. PSGait outperforms existing state-of-the-art multimodal methods that utilize both skeleton and silhouette inputs while significantly reducing computational resources. Furthermore, as a plug-and-play method, PSGait leads to a maximum improvement of 10.9% in Rank-1 accuracy across various gait recognition models. These results demonstrate that Parsing Skeleton offers a lightweight, effective, and highly generalizable representation for gait recognition in the wild.

arxiv情報

著者 Hangrui Xu,Chuanrui Zhang,Zhengxian Wu,Peng Jiao,Haoqian Wang
発行日 2025-04-14 15:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PSGait: Gait Recognition using Parsing Skeleton はコメントを受け付けていません

Benchmarking 3D Human Pose Estimation Models Under Occlusions

要約

このペーパーでは、閉塞、カメラの位置、および作用の変動に対する既存のモデルの堅牢性と感度を分析することにより、3Dヒトポーズ推定(HPE)の重要な課題に対処します。
マルチカメラのセットアップといくつかの閉塞タイプを備えた多様なシナリオを含む、新しい合成データセットであるBlendMimic3Dを使用して、いくつかの最先端モデルで特定のテストを実施します。
私たちの研究は、2D検出モデルと3D HPEモデルの頻繁な入力に一般的に使用されるCOCOなどの一般的なデータセットとCOCOなどの2Dデータセットの間のキーポイント形式の矛盾に焦点を当てています。
私たちの作品は、標準条件のみで訓練されたモデルのパフォーマンスとモデルの一般性に対する閉塞の影響を探ります。
この調査結果は、閉塞とカメラの設定に対する有意な感度を示唆しており、実際の変動性と閉塞シナリオによりよく適応するモデルの必要性を明らかにしています。
この研究は、複雑な環境での3D HPEシステムの忠実度と適用性を改善するための継続的な取り組みに貢献しました。

要約(オリジナル)

This paper addresses critical challenges in 3D Human Pose Estimation (HPE) by analyzing the robustness and sensitivity of existing models to occlusions, camera position, and action variability. Using a novel synthetic dataset, BlendMimic3D, which includes diverse scenarios with multi-camera setups and several occlusion types, we conduct specific tests on several state-of-the-art models. Our study focuses on the discrepancy in keypoint formats between common datasets such as Human3.6M, and 2D datasets such as COCO, commonly used for 2D detection models and frequently input of 3D HPE models. Our work explores the impact of occlusions on model performance and the generality of models trained exclusively under standard conditions. The findings suggest significant sensitivity to occlusions and camera settings, revealing a need for models that better adapt to real-world variability and occlusion scenarios. This research contributed to ongoing efforts to improve the fidelity and applicability of 3D HPE systems in complex environments.

arxiv情報

著者 Filipa Lino,Carlos Santiago,Manuel Marques
発行日 2025-04-14 16:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking 3D Human Pose Estimation Models Under Occlusions はコメントを受け付けていません

Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis

要約

マルチモーダルファンデーションモデルは、複数のモダリティから情報を統合することにより、機能表現を大幅に改善し、より広範なアプリケーションに非常に適しています。
ただし、知覚を理解するためのマルチモーダルの顔の表現の調査は限られています。
アクションユニット(AUS)や感情などの顔の状態を理解して分析するには、視覚的および言語的モダリティを橋渡しする包括的で堅牢なフレームワークが必要です。
この論文では、マルチモーダルフェイシャルステート分析のための包括的なパイプラインを紹介します。
まず、GPT-4oを活用することにより、アクションユニット(AU)と感情の説明を組み込む、顔の詳細なマルチレベル言語の説明を生成することにより、新しいマルチモーダルフェイスデータセット(MFA)をコンパイルします。
第二に、アクションユニット(AU)と感情認識に合わせた新しいマルチレベルマルチモーダルフェイスファンデーションモデル(MF^2)を紹介します。
私たちのモデルには、フェイスイメージのローカルレベルとグローバルレベルの両方の両方で包括的な視覚機能モデリングが組み込まれており、詳細な顔の外観を表す能力が向上しています。
この設計は、視覚表現を構造化されたAUおよび感情の説明に合わせて、効果的なクロスモーダル統合を確保します。
第三に、さまざまなタスクとデータセットにMF^2を効率的に適応させるデカップされた微調整ネットワーク(DFN)を開発します。
このアプローチは、計算オーバーヘッドを削減するだけでなく、ファンデーションモデルの適用性を多様なシナリオに拡大します。
実験では、AUおよび感情検出タスクの優れたパフォーマンスが示されています。

要約(オリジナル)

Multimodal foundation models have significantly improved feature representation by integrating information from multiple modalities, making them highly suitable for a broader set of applications. However, the exploration of multimodal facial representation for understanding perception has been limited. Understanding and analyzing facial states, such as Action Units (AUs) and emotions, require a comprehensive and robust framework that bridges visual and linguistic modalities. In this paper, we present a comprehensive pipeline for multimodal facial state analysis. First, we compile a new Multimodal Face Dataset (MFA) by generating detailed multilevel language descriptions of face, incorporating Action Unit (AU) and emotion descriptions, by leveraging GPT-4o. Second, we introduce a novel Multilevel Multimodal Face Foundation model (MF^2) tailored for Action Unit (AU) and emotion recognition. Our model incorporates comprehensive visual feature modeling at both local and global levels of face image, enhancing its ability to represent detailed facial appearances. This design aligns visual representations with structured AU and emotion descriptions, ensuring effective cross-modal integration. Third, we develop a Decoupled Fine-Tuning Network (DFN) that efficiently adapts MF^2 across various tasks and datasets. This approach not only reduces computational overhead but also broadens the applicability of the foundation model to diverse scenarios. Experimentation show superior performance for AU and emotion detection tasks.

arxiv情報

著者 Kaiwen Zheng,Xuri Ge,Junchen Fu,Jun Peng,Joemon M. Jose
発行日 2025-04-14 16:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis はコメントを受け付けていません

GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion

要約

スマートフォンなどのコモディティデバイスが撮影した単眼動画から、アニメーション可能な3Dガウスアバターを再構築するための新しいアプローチを提案します。
このような録音からのフォトリアリックな3Dヘッドアバターの再構築は、観察が限られているために困難です。
この問題に対処するために、マルチビューヘッド拡散モデルを導入し、その前領域を活用して欠落している領域を埋め、ガウスのスプラッティングレンダリングのビューの一貫性を確保します。
正確な視点制御を有効にするために、火炎ベースのヘッド再構築からレンダリングされた通常のマップを使用して、ピクセルアライメント誘導バイアスを提供します。
また、顔のアイデンティティと外観の詳細を保存するために、入力画像から抽出されたVAE特徴の拡散モデルを条件付けます。
ガウスアバターの再構築については、誤って除去された画像を擬似グラウンドの真理として使用して、過剰飽和度の問題を効果的に緩和することにより、マルチビュー拡散前の拡散前を蒸留します。
フォトリアリズムをさらに向上させるために、潜在的なアップサンプリング前のプライアーを適用して、画像にデコードする前に、薄い潜在性を改良します。
Nersemble Datasetでの方法を評価し、GAFが新しいビュー合成における以前の最先端の方法よりも優れていることを示しています。
さらに、コモディティデバイスで撮影された単眼ビデオからのより忠実度のアバター再構成を示します。

要約(オリジナル)

We propose a novel approach for reconstructing animatable 3D Gaussian avatars from monocular videos captured by commodity devices like smartphones. Photorealistic 3D head avatar reconstruction from such recordings is challenging due to limited observations, which leaves unobserved regions under-constrained and can lead to artifacts in novel views. To address this problem, we introduce a multi-view head diffusion model, leveraging its priors to fill in missing regions and ensure view consistency in Gaussian splatting renderings. To enable precise viewpoint control, we use normal maps rendered from FLAME-based head reconstruction, which provides pixel-aligned inductive biases. We also condition the diffusion model on VAE features extracted from the input image to preserve facial identity and appearance details. For Gaussian avatar reconstruction, we distill multi-view diffusion priors by using iteratively denoised images as pseudo-ground truths, effectively mitigating over-saturation issues. To further improve photorealism, we apply latent upsampling priors to refine the denoised latent before decoding it into an image. We evaluate our method on the NeRSemble dataset, showing that GAF outperforms previous state-of-the-art methods in novel view synthesis. Furthermore, we demonstrate higher-fidelity avatar reconstructions from monocular videos captured on commodity devices.

arxiv情報

著者 Jiapeng Tang,Davide Davoli,Tobias Kirschstein,Liam Schoneveld,Matthias Niessner
発行日 2025-04-14 16:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion はコメントを受け付けていません

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

要約

基礎ビジョン言語モデル(VLM)の最近の進歩により、コンピュータービジョンタスクの評価パラダイムが再構築されました。
これらの基礎モデル、特にCLIPは、オープンボキャブラリーセマンティックセグメンテーション(OVSS)を含む、オープンボキャブラリーコンピュータービジョンタスクの研究を加速しています。
初期の結果は有望ですが、VLMの密な予測能力は依然としてさらなる改善が必要です。
この研究では、新しいモジュールと変更を導入することにより、クリップのセマンティックセグメンテーションパフォーマンスを強化します。1)VITの最後のレイヤーのアーキテクチャの変化と、最終層の中間層からの注意マップの組み込み、2)画像エンジニアリング:入力画像表現を豊かにするためのデータ増強、3)を使用して大規模な言語モデル(LLMS)を使用して、3)
オープンボキャブラリー機能。
当社のトレーニングフリーの方法であるITACLIPは、COCO-STUFF、COCO-Object、Pascal Context、Pascal VOCなどのセグメンテーションベンチマークに関する現在の最先端のアプローチよりも優れています。
私たちのコードは、https://github.com/m-arda-aydn/itaclipで入手できます。

要約(オリジナル)

Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP’s open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.

arxiv情報

著者 M. Arda Aydın,Efe Mert Çırpar,Elvin Abdinli,Gozde Unal,Yusuf H. Sahin
発行日 2025-04-14 16:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements はコメントを受け付けていません

Patch and Shuffle: A Preprocessing Technique for Texture Classification in Autonomous Cementitious Fabrication

要約

自律的な製造システムは、建設と製造を変革していますが、印刷エラーに対して脆弱なままです。
テクスチャ分類は、セメント質の製造中にリアルタイムの監視と調整を可能にするコンピュータービジョンシステムの重要なコンポーネントです。
従来の分類方法は、多くの場合、グローバルな画像機能に依存しているため、低レベルのテクスチャではなく、モデルをセマンティックコンテンツにバイアスすることができます。
この論文では、「パッチとシャッフル」と呼ばれる新しい前処理技術を紹介します。これは、画像を小さなパッチに入力し、シャッフルし、分類前にごちゃごちゃした画像を再構築します。
この変換によりセマンティックコンテキストが削除され、分類器がローカルテクスチャ機能に依存するように強制します。
ResNet-18ベースのアーキテクチャを使用して、押し出されたセメント画像のデータセットでこのアプローチを評価します。
私たちの実験は、パッチとシャッフル法を標準のパイプラインと比較し、他のすべての要因を一定に保ちます。
結果は、精度の大幅な改善を示しています。パッチとシャッフルモデルは、ベースラインの72.46%に対して90.64%のテスト精度を達成しました。
これらの調査結果は、グローバル構造を破壊すると、テクスチャベースの分類タスクのパフォーマンスが向上することを示唆しています。
この方法は、低レベルの特徴が高レベルのセマンティクスよりも重要な広範なビジョンタスクに影響を与えます。
この手法は、製造監視から医療イメージングまで、アプリケーションの分類を改善する可能性があります。

要約(オリジナル)

Autonomous fabrication systems are transforming construction and manufacturing, yet they remain vulnerable to print errors. Texture classification is a key component of computer vision systems that enable real-time monitoring and adjustment during cementitious fabrication. Traditional classification methods often rely on global image features, which can bias the model toward semantic content rather than low-level textures. In this paper, we introduce a novel preprocessing technique called ‘patch and shuffle,’ which segments input images into smaller patches, shuffles them, and reconstructs a jumbled image before classification. This transformation removes semantic context, forcing the classifier to rely on local texture features. We evaluate this approach on a dataset of extruded cement images, using a ResNet-18-based architecture. Our experiments compare the patch and shuffle method to a standard pipeline, holding all other factors constant. Results show a significant improvement in accuracy: the patch and shuffle model achieved 90.64% test accuracy versus 72.46% for the baseline. These findings suggest that disrupting global structure enhances performance in texture-based classification tasks. This method has implications for broader vision tasks where low-level features matter more than high-level semantics. The technique may improve classification in applications ranging from fabrication monitoring to medical imaging.

arxiv情報

著者 Jeremiah Giordani
発行日 2025-04-14 16:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Patch and Shuffle: A Preprocessing Technique for Texture Classification in Autonomous Cementitious Fabrication はコメントを受け付けていません

FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos

要約

ビデオ生成における最近の進歩は、特にますます洗練されたモデルの出現により、AIに生成されたコンテンツの評価に大きな課題をもたらしました。
そのようなビデオで観察されるさまざまな矛盾と欠陥は本質的に複雑であり、全体的な得点を困難にしています。
このホワイトペーパーでは、微調整された推論をビデオ評価に統合することの重要な重要性を強調し、$ \ textbf {f} $ ing $ \ textbf {er} $を提案します。
$ \ textbf {r} $スコアを備えたイーソンモデル。これは、その後、さまざまなアプリケーションの全体的なスコアに重み付けされる可能性があります。
具体的には、LLMSを活用して、5つの異なる視点にわたってエンティティレベルの質問を導き出します。これは、(i)コンテンツの特定のエンティティに焦点を当てているため、MLLMSが回答またはスコアリングをより簡単にし、(ii)がより解釈可能になります。
次に、約3.3kのビデオとそれぞれに対応する60kのファイングレインのQAアノテーションで構成される指データセットを作成します。それぞれに詳細な理由があります。
それに基づいて、様々なトレーニングプロトコルをさらに調査して、正解予測のためにMLLMSの推論能力を最大限に活用します。
広範な実験は、コールドスタート戦略を使用してグループ相対ポリシー最適化(GRPO)を使用して訓練された推論モデルが最高のパフォーマンスを達成することを示しています。
特に、私たちのモデルは、既存の方法を、Genai-Benchで$ 11.8 \%$、Monetbenchで5.5 \%$の相対マージンで上回ります。これは、他の方法で使用されるトレーニングサンプルの最大10分の1です。
コードとデータセットはまもなくリリースされます。

要約(オリジナル)

Recent advances in video generation have posed great challenges in the assessment of AI-generated content, particularly with the emergence of increasingly sophisticated models. The various inconsistencies and defects observed in such videos are inherently complex, making overall scoring notoriously difficult. In this paper, we emphasize the critical importance of integrating fine-grained reasoning into video evaluation, and we propose $\textbf{F}$ing$\textbf{ER}$, a novel entity-level reasoning evaluation framework that first automatically generates $\textbf{F}$ine-grained $\textbf{E}$ntity-level questions, and then answers those questions by a $\textbf{R}$easoning model with scores, which can be subsequently weighted summed to an overall score for different applications. Specifically, we leverage LLMs to derive entity-level questions across five distinct perspectives, which (i) often focus on some specific entities of the content, thereby making answering or scoring much easier by MLLMs, and (ii) are more interpretable. Then we construct a FingER dataset, consisting of approximately 3.3k videos and corresponding 60k fine-grained QA annotations, each with detailed reasons. Based on that, we further investigate various training protocols to best incentivize the reasoning capability of MLLMs for correct answer prediction. Extensive experiments demonstrate that a reasoning model trained using Group Relative Policy Optimization (GRPO) with a cold-start strategy achieves the best performance. Notably, our model surpasses existing methods by a relative margin of $11.8\%$ on GenAI-Bench and $5.5\%$ on MonetBench with only 3.3k training videos, which is at most one-tenth of the training samples utilized by other methods. Our code and dataset will be released soon.

arxiv情報

著者 Rui Chen,Lei Sun,Jing Tang,Geng Li,Xiangxiang Chu
発行日 2025-04-14 16:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos はコメントを受け付けていません

Improving Tropical Cyclone Forecasting With Video Diffusion Models

要約

熱帯低気圧(TC)予測は、災害の準備と緩和に不可欠です。
最近の深い学習アプローチは有望であることが示されていますが、既存の方法はTCの進化を一連の独立したフレーム間予測として扱い、長期的なダイナミクスをキャプチャする能力を制限することがよくあります。
TC予測のビデオ拡散モデルの新しいアプリケーションを提示し、追加の時間層を介して時間的依存性を明示的にモデル化します。
私たちのアプローチにより、モデルは複数のフレームを同時に生成し、サイクロンの進化パターンをより適切にキャプチャできます。
低データ体制の個人フレームの品質とパフォーマンスを大幅に改善する2段階のトレーニング戦略を導入します。
実験結果は、私たちの方法がNath et alの以前のアプローチよりも優れていることを示しています。
MAEで19.3%、PSNRで16.2%、SSIMで36.1%。
最も注目すべきは、信頼できる予測期間を36〜50時間に拡張することです。
従来のメトリックとFR \ ‘Echetビデオ距離(FVD)の両方を使用した包括的な評価を通じて、私たちのアプローチは、競争力のあるシングルフレーム品質を維持しながら、より一時的に一貫した予測を生成することを実証します。
https://github.com/ren-creater/forecast-video-diffmodelsでアクセス可能なコード。

要約(オリジナル)

Tropical cyclone (TC) forecasting is crucial for disaster preparedness and mitigation. While recent deep learning approaches have shown promise, existing methods often treat TC evolution as a series of independent frame-to-frame predictions, limiting their ability to capture long-term dynamics. We present a novel application of video diffusion models for TC forecasting that explicitly models temporal dependencies through additional temporal layers. Our approach enables the model to generate multiple frames simultaneously, better capturing cyclone evolution patterns. We introduce a two-stage training strategy that significantly improves individual-frame quality and performance in low-data regimes. Experimental results show our method outperforms the previous approach of Nath et al. by 19.3% in MAE, 16.2% in PSNR, and 36.1% in SSIM. Most notably, we extend the reliable forecasting horizon from 36 to 50 hours. Through comprehensive evaluation using both traditional metrics and Fr\’echet Video Distance (FVD), we demonstrate that our approach produces more temporally coherent forecasts while maintaining competitive single-frame quality. Code accessible at https://github.com/Ren-creater/forecast-video-diffmodels.

arxiv情報

著者 Zhibo Ren,Pritthijit Nath,Pancham Shukla
発行日 2025-04-14 16:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.ao-ph | Improving Tropical Cyclone Forecasting With Video Diffusion Models はコメントを受け付けていません