A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook

要約

画質評価(IQA)は、画像中心のテクノロジーにおける極めて重要な課題を表し、画像処理とコンピュータービジョンの進歩軌道に大きく影響します。
最近、IQAは、新しい建築のパラダイムと洗練された計算技術の出現に起因する革新的な研究努力の顕著な急増を目撃しました。
この調査では、アプリケーションシナリオに従って組織された現代のIQA方法論の広範な分析を提供し、初心者と経験豊富な研究者の両方にとって有益なリファレンスとして機能します。
現在のアプローチの利点と制限を分析し、潜在的な将来の研究経路を示唆しています。
この調査には、従来の統計測定、機械学習技術、畳み込みニューラルネットワーク(CNNS)やトランスモデルなどの最先端の深い学習モデルなど、一般的および特定のIQA方法論が含まれます。
この調査内の分析は、さまざまなアプリケーションシナリオに合わせた歪み固有のIQAメソッドの必要性を強調し、将来の開発における実用性、解釈可能性、および実装の容易さの重要性を強調しています。

要約(オリジナル)

Image quality assessment (IQA) represents a pivotal challenge in image-focused technologies, significantly influencing the advancement trajectory of image processing and computer vision. Recently, IQA has witnessed a notable surge in innovative research efforts, driven by the emergence of novel architectural paradigms and sophisticated computational techniques. This survey delivers an extensive analysis of contemporary IQA methodologies, organized according to their application scenarios, serving as a beneficial reference for both beginners and experienced researchers. We analyze the advantages and limitations of current approaches and suggest potential future research pathways. The survey encompasses both general and specific IQA methodologies, including conventional statistical measures, machine learning techniques, and cutting-edge deep learning models such as convolutional neural networks (CNNs) and Transformer models. The analysis within this survey highlights the necessity for distortion-specific IQA methods tailored to various application scenarios, emphasizing the significance of practicality, interpretability, and ease of implementation in future developments.

arxiv情報

著者 Chengqian Ma,Zhengyi Shi,Zhiqiang Lu,Shenghao Xie,Fei Chao,Yao Sui
発行日 2025-02-12 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook はコメントを受け付けていません

Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval

要約

ビデオモーメント検索は、視覚言語モデルのパフォーマンスを評価するための一般的なタスクです。クエリセンテンスからのビデオの瞬間の開始時間と終了時間をローカリングすることが含まれます。
現在のタスクの定式化は、クエリのモーメントがビデオに存在することを前提としており、その結果、無関係なクエリ文が提供されると、偽陽性モーメントの予測が生じます。
このペーパーでは、否定的なビデオモーメント検索(NA-VMR)のタスクを提案します。これは、モーメントの検索精度と負のクエリ拒否の精度の両方を考慮します。
ドメイン内とドメイン外のネガティブクエリを区別し、2つの人気のあるビデオモーメント検索データセットの新しい評価ベンチマークを提供します:QVHighlightsとCharades-sta。
Na-VMRに取り組むように設計されたUNIVTGの適応であるUnivtg-NAを否定的なビデオモーメント検索に適応させるために、現在のSOTAビデオモーメント検索アプローチの能力を分析します。
Univtg-naは、$ 3.87 \%$ recall@1以内にモーメント検索スコアを保持しながら、高い負の拒絶反応精度(平均$ 98.4 \%$)スコアを達成します。
データセットの分割とコードは、https://github.com/keflanagan/momentofuntruthで入手できます

要約(オリジナル)

Video Moment Retrieval is a common task to evaluate the performance of visual-language models – it involves localising start and end times of moments in videos from query sentences. The current task formulation assumes that the queried moment is present in the video, resulting in false positive moment predictions when irrelevant query sentences are provided. In this paper we propose the task of Negative-Aware Video Moment Retrieval (NA-VMR), which considers both moment retrieval accuracy and negative query rejection accuracy. We make the distinction between In-Domain and Out-of-Domain negative queries and provide new evaluation benchmarks for two popular video moment retrieval datasets: QVHighlights and Charades-STA. We analyse the ability of current SOTA video moment retrieval approaches to adapt to Negative-Aware Video Moment Retrieval and propose UniVTG-NA, an adaptation of UniVTG designed to tackle NA-VMR. UniVTG-NA achieves high negative rejection accuracy (avg. $98.4\%$) scores while retaining moment retrieval scores to within $3.87\%$ Recall@1. Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth

arxiv情報

著者 Kevin Flanagan,Dima Damen,Michael Wray
発行日 2025-02-12 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval はコメントを受け付けていません

Copula-based mixture model identification for subgroup clustering with imaging applications

要約

モデルベースのクラスタリング技術はさまざまなアプリケーション領域に広く適用されていますが、ほとんどの研究は、独自のコンポーネント分布フォームを備えた標準混合物に焦点を当てています。
ただし、この厳格な仮定は、満足するのが難しいことがよくあります。
このホワイトペーパーでは、クラスタリング用のより柔軟なコピュラベースの混合モデル(CBMMS)を検討します。これにより、周辺およびコピュラ形式の柔軟な選択によって構成される不均一なコンポーネント分布が可能になります。
より具体的には、一般化された反復条件推定(GICE)アルゴリズムの適応を提案して、CBMMSを監視されていない方法で識別します。
GICEは、実現時間を選択してマルコフモデルの識別を切り替えるために開発された元のバージョンから採用されています。
次に、CBMM-GICEクラスタリング法は、収束に影響を与える要因について議論された合成2クラスターデータ(n = 2000サンプル)でテストされます。
最後に、MNISTデータベース全体(n = 70000)全体に一意のコンポーネント形式を持つ混合モデルを特定したことと、イメージングアプリケーションの値を示すための実際の心臓磁気共鳴データ(n = 276)で特定された混合モデルと比較されます。

要約(オリジナル)

Model-based clustering techniques have been widely applied to various application areas, while most studies focus on canonical mixtures with unique component distribution form. However, this strict assumption is often hard to satisfy. In this paper, we consider the more flexible Copula-Based Mixture Models (CBMMs) for clustering, which allow heterogeneous component distributions composed by flexible choices of marginal and copula forms. More specifically, we propose an adaptation of the Generalized Iterative Conditional Estimation (GICE) algorithm to identify the CBMMs in an unsupervised manner, where the marginal and copula forms and their parameters are estimated iteratively. GICE is adapted from its original version developed for switching Markov model identification with the choice of realization time. Our CBMM-GICE clustering method is then tested on synthetic two-cluster data (N=2000 samples) with discussion of the factors impacting its convergence. Finally, it is compared to the Expectation Maximization identified mixture models with unique component form on the entire MNIST database (N=70000), and on real cardiac magnetic resonance data (N=276) to illustrate its value for imaging applications.

arxiv情報

著者 Fei Zheng,Nicolas Duchateau
発行日 2025-02-12 16:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Copula-based mixture model identification for subgroup clustering with imaging applications はコメントを受け付けていません

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling

要約

人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するために重要です。
最近、大規模な言語モデルやビジョンモデルなどのジェネラリストモデルの成功に触発された人間中心の基礎モデル(HCFMS)が、多様な人間中心のタスクを単一のフレームワークに統一し、従来のタスク固有のアプローチを上回るために登場しました。
この調査では、現在のアプローチを4つのグループに分類する分類法を提案することにより、HCFMSの包括的な概要を紹介します。(1)マルチモーダル2Dおよび3D理解のための細粒の特徴をキャプチャする人間中心の知覚基盤モデル。
(2)高忠実で多様な人間関連のコンテンツを生成する人間中心のAIGC基礎モデル。
(3)これらの能力を統合して人間の理解と統合の両方を強化する統合された認識と生成モデル。
(4)知覚と生成を超えて人間のような知性とヒューマノイド具体化されたタスクのインタラクティブな行動を学ぶ人間中心のエージェント基礎モデル。
最先端のテクニックをレビューし、新たな課題と将来の研究の方向性について説明します。
この調査の目的は、より堅牢で汎用性があり、インテリジェントなデジタル人間および実施形態のモデリングに向けて取り組む研究者と実践者のロードマップとして機能することを目的としています。

要約(オリジナル)

Human understanding and generation are critical for modeling digital humans and humanoid embodiments. Recently, Human-centric Foundation Models (HcFMs) inspired by the success of generalist models, such as large language and vision models, have emerged to unify diverse human-centric tasks into a single framework, surpassing traditional task-specific approaches. In this survey, we present a comprehensive overview of HcFMs by proposing a taxonomy that categorizes current approaches into four groups: (1) Human-centric Perception Foundation Models that capture fine-grained features for multi-modal 2D and 3D understanding. (2) Human-centric AIGC Foundation Models that generate high-fidelity, diverse human-related content. (3) Unified Perception and Generation Models that integrate these capabilities to enhance both human understanding and synthesis. (4) Human-centric Agentic Foundation Models that extend beyond perception and generation to learn human-like intelligence and interactive behaviors for humanoid embodied tasks. We review state-of-the-art techniques, discuss emerging challenges and future research directions. This survey aims to serve as a roadmap for researchers and practitioners working towards more robust, versatile, and intelligent digital human and embodiments modeling.

arxiv情報

著者 Shixiang Tang,Yizhou Wang,Lu Chen,Yuan Wang,Sida Peng,Dan Xu,Wanli Ouyang
発行日 2025-02-12 16:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Human-Centric Foundation Models: Perception, Generation and Agentic Modeling はコメントを受け付けていません

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約

マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフォーマンスを実証しています。
ただし、長い形式のビデオを理解することは、MLLMにとって依然として困難なままです。
このペーパーでは、長いビデオシーケンスを処理するためのシンプルで効率的なフレームワーク、MLLMSの接地されたチューニングのための高品質のビデオデータセット、およびAを処理するなど、長いビデオ理解のために既存のショートフォームビデオMLLMSを適応させる新しいデザインのコレクションであるTimeSuiteを提案します。
慎重に設計された命令調整タスクは、従来のQA形式に接地監督を明示的に組み込みます。
具体的には、VideoChatに基づいて、ビデオチャット-Tとして造られた長距離MLLMを提案し、長いビデオトークンを圧縮するためにトークンシャッフルを実装し、視覚表現の時間的認識を高めるための時間的適応位置エン​​コーディング(Tape)を導入します。
一方、9つのタスクと349kの高品質の接地注釈で構成される包括的な接地中心の命令チューニングデータセットであるTimeProを紹介します。
特に、対応するタイムスタンプの予測を使用して詳細なビデオ説明をPEFormするために、PEFORMの詳細なビデオ説明と呼ばれる新しい命令チューニングタスクタイプを設計します。
この明示的な時間的位置予測により、MLLMは説明を生成するときに視覚コンテンツに正しく参加するように導き、したがってLLMSによって引き起こされる幻覚リスクを減らします。
実験結果は、TimeSuiteが短型MLLMの長いビデオ理解能力を高めるための成功したソリューションを提供し、それぞれエゴスケマとVideommeのベンチマークで5.6%と6.8%の改善を達成することを示しています。
さらに、VideoChat-Tは、堅牢なゼロショットの時間的接地機能を示し、既存の最先端のMLLMを大幅に上回っています。
微調整後、従来の監視されている専門家モデルと同等に機能します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated impressive performance in short video understanding. However, understanding long-form videos still remains challenging for MLLMs. This paper proposes TimeSuite, a collection of new designs to adapt the existing short-form video MLLMs for long video understanding, including a simple yet efficient framework to process long video sequence, a high-quality video dataset for grounded tuning of MLLMs, and a carefully-designed instruction tuning task to explicitly incorporate the grounding supervision in the traditional QA format. Specifically, based on VideoChat, we propose our long-video MLLM, coined as VideoChat-T, by implementing a token shuffling to compress long video tokens and introducing Temporal Adaptive Position Encoding (TAPE) to enhance the temporal awareness of visual representation. Meanwhile, we introduce the TimePro, a comprehensive grounding-centric instruction tuning dataset composed of 9 tasks and 349k high-quality grounded annotations. Notably, we design a new instruction tuning task type, called Temporal Grounded Caption, to peform detailed video descriptions with the corresponding time stamps prediction. This explicit temporal location prediction will guide MLLM to correctly attend on the visual content when generating description, and thus reduce the hallucination risk caused by the LLMs. Experimental results demonstrate that our TimeSuite provides a successful solution to enhance the long video understanding capability of short-form MLLM, achieving improvement of 5.6% and 6.8% on the benchmarks of Egoschema and VideoMME, respectively. In addition, VideoChat-T exhibits robust zero-shot temporal grounding capabilities, significantly outperforming the existing state-of-the-art MLLMs. After fine-tuning, it performs on par with the traditional supervised expert models.

arxiv情報

著者 Xiangyu Zeng,Kunchang Li,Chenting Wang,Xinhao Li,Tianxiang Jiang,Ziang Yan,Songze Li,Yansong Shi,Zhengrong Yue,Yi Wang,Yali Wang,Yu Qiao,Limin Wang
発行日 2025-02-12 16:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning はコメントを受け付けていません

Brain Latent Progression: Individual-based Spatiotemporal Disease Progression on 3D Brain MRIs via Latent Diffusion

要約

縦方向の磁気共鳴イメージング(MRI)データセットの利用可能性の増加により、人工知能(AI)駆動疾患のモデリングが促進され、個々の患者の将来の医療スキャンを予測できるようになりました。
ただし、AIの大幅な進歩にもかかわらず、現在の方法は、患者固有の個別化の達成、空間的一貫性の確保、縦断的データの効率的な利用、3Dスキャンの実質的なメモリ需要の管理などの課題に直面し続けています。
これらの課題に対処するために、3D脳MRIの個人レベルの疾患の進行を予測するために設計された新規の時空モデルである脳潜在進行(BRLP)を提案します。
BRLPの重要な貢献は4倍です。(i)小さな潜在スペースで動作し、高次元イメージングデータによってもたらされる計算上の課題を軽減します。
(ii)主題メタデータを明示的に統合して、予測の個別化を強化します。
(iii)補助モデルを介して疾患のダイナミクスの事前知識を組み込み、縦断的データの統合を促進します。
(iv)潜在的な平均安定化(LAS)アルゴリズムを導入します。これは、(a)推論時に予測される進行における時空間的一貫性を強化し、(b)予測の不確実性の尺度を導き出すことができます。
2,805人の被験者から11,730 T1強調(T1W)脳MRIでBRLPをトレーニングおよび評価し、962人の被験者から2,257 MRIを含む外部テストセットでその一般化可能性を検証します。
私たちの実験は、BRLP生成されたMRIスキャンを実際のフォローアップMRIと比較し、既存の方法と比較して最先端の精度を示しています。
このコードは、https://github.com/lemuelpuglisi/brlpで公開されています。

要約(オリジナル)

The growing availability of longitudinal Magnetic Resonance Imaging (MRI) datasets has facilitated Artificial Intelligence (AI)-driven modeling of disease progression, making it possible to predict future medical scans for individual patients. However, despite significant advancements in AI, current methods continue to face challenges including achieving patient-specific individualization, ensuring spatiotemporal consistency, efficiently utilizing longitudinal data, and managing the substantial memory demands of 3D scans. To address these challenges, we propose Brain Latent Progression (BrLP), a novel spatiotemporal model designed to predict individual-level disease progression in 3D brain MRIs. The key contributions in BrLP are fourfold: (i) it operates in a small latent space, mitigating the computational challenges posed by high-dimensional imaging data; (ii) it explicitly integrates subject metadata to enhance the individualization of predictions; (iii) it incorporates prior knowledge of disease dynamics through an auxiliary model, facilitating the integration of longitudinal data; and (iv) it introduces the Latent Average Stabilization (LAS) algorithm, which (a) enforces spatiotemporal consistency in the predicted progression at inference time and (b) allows us to derive a measure of the uncertainty for the prediction. We train and evaluate BrLP on 11,730 T1-weighted (T1w) brain MRIs from 2,805 subjects and validate its generalizability on an external test set comprising 2,257 MRIs from 962 subjects. Our experiments compare BrLP-generated MRI scans with real follow-up MRIs, demonstrating state-of-the-art accuracy compared to existing methods. The code is publicly available at: https://github.com/LemuelPuglisi/BrLP.

arxiv情報

著者 Lemuel Puglisi,Daniel C. Alexander,Daniele Ravì
発行日 2025-02-12 16:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Brain Latent Progression: Individual-based Spatiotemporal Disease Progression on 3D Brain MRIs via Latent Diffusion はコメントを受け付けていません

AR Glulam: Accurate Augmented Reality Using Multiple Fiducial Markers for Glulam Fabrication

要約

拡張現実(AR)における最近の進歩は、建築、設計、および製造におけるアプリケーションを実証しています。
従来の2D構造図面と比較して、ARを使用して、コンテキスト命令を重ね、3D空間情報を表示し、オンサイトエンゲージメントを有効にします。
ARの可能性にもかかわらず、業界での技術の広範な採用は、その精度によって制限されています。
精度は、厳格な建設許容度、設計の忠実度、製造フィードバックを必要とするプロジェクトにとって重要です。
たとえば、Glumamビームの製造には、2mm未満の許容範囲が必要です。
このプロジェクトの目標は、高精度AR製造に複数の基準マーカーを使用する産業用途を調査することです。
この方法は、0.97の精度でラボ設定で検証されていますが、このペーパーでは、業界のメーカーであるUnalam Factoryとの工場環境でGlumam Beamを製造することに焦点を当てています。

要約(オリジナル)

Recent advancements in Augmented Reality (AR) have demonstrated applications in architecture, design, and fabrication. Compared to conventional 2D construction drawings, AR can be used to superimpose contextual instructions, display 3D spatial information and enable on-site engagement. Despite the potential of AR, the widespread adoption of the technology in the industry is limited by its precision. Precision is important for projects requiring strict construction tolerances, design fidelity, and fabrication feedback. For example, the manufacturing of glulam beams requires tolerances of less than 2mm. The goal of this project is to explore the industrial application of using multiple fiducial markers for high-precision AR fabrication. While the method has been validated in lab settings with a precision of 0.97, this paper focuses on fabricating glulam beams in a factory setting with an industry manufacturer, Unalam Factory.

arxiv情報

著者 Alexander Htet Kyaw,Arvin Xu,Sasa Zivkovic,Gwyllim Jahn,Cameron Newnham,Nick Van Den Berg
発行日 2025-02-12 16:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.ET, cs.HC | AR Glulam: Accurate Augmented Reality Using Multiple Fiducial Markers for Glulam Fabrication はコメントを受け付けていません

A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion

要約

人工知能とコンピュータービジョンテクノロジーの進歩により、マルチモーダル感情認識が顕著な研究トピックになりました。
ただし、既存の方法は、不均一なデータ融合やモダリティ相関の効果的な利用などの課題に直面しています。
このペーパーでは、対照的な学習と視覚シーケンス圧縮の統合に基づいて、新しいマルチモーダル感情認識アプローチ、Deepmsi-Merを提案します。
提案された方法は、対照的な学習を通じてクロスモーダルの特徴の融合を強化し、視覚シーケンス圧縮を活用することにより、視覚モダリティの冗長性を減らします。
IEMOCAPとMELDの2つのパブリックデータセットでの実験結果は、DeepMsi-Merが感情認識の精度と堅牢性を大幅に改善し、マルチモーダル特徴融合の有効性と提案されたアプローチを検証することを示しています。

要約(オリジナル)

With the advancement of artificial intelligence and computer vision technologies, multimodal emotion recognition has become a prominent research topic. However, existing methods face challenges such as heterogeneous data fusion and the effective utilization of modality correlations. This paper proposes a novel multimodal emotion recognition approach, DeepMSI-MER, based on the integration of contrastive learning and visual sequence compression. The proposed method enhances cross-modal feature fusion through contrastive learning and reduces redundancy in the visual modality by leveraging visual sequence compression. Experimental results on two public datasets, IEMOCAP and MELD, demonstrate that DeepMSI-MER significantly improves the accuracy and robustness of emotion recognition, validating the effectiveness of multimodal feature fusion and the proposed approach.

arxiv情報

著者 Wei Dai,Dequan Zheng,Feng Yu,Yanrong Zhang,Yaohui Hou
発行日 2025-02-12 17:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion はコメントを受け付けていません

Ultrasound Image Generation using Latent Diffusion Models

要約

画像生成の拡散モデルは、多様で高品質の画像を生成する能力により、関心が高まる対象となっています。
特にまれな状況では、オープンソースの医療画像を自然な画像と比較して取得するのが難しいため、画像生成は医療画像に大きな可能性があります。
生成された画像は、後で分類モデルとセグメンテーションモデルをトレーニングするために使用できます。
このホワイトペーパーでは、さまざまな公開データベース上の大きな拡散モデルの連続した微調整により、現実的な超音波(US)画像をシミュレートすることを提案します。
そのために、BUSI(胸紙画像)の超音波乳房画像データセットで、最先端の潜在拡散モデルである安定した拡散を微調整しました。
臓器と病理を指定する単純なプロンプトを使用して、乳房の高品質の米国の画像を成功裏に生成しました。
さらに、コントロールネットを介してセグメンテーションを使用してモデルを条件付けすることにより、ユーザーコントロールを提供しました。
ソースコードをhttp://code.sonography.ai/をリリースして、科学コミュニティに速い米国の画像生成を許可します。

要約(オリジナル)

Diffusion models for image generation have been a subject of increasing interest due to their ability to generate diverse, high-quality images. Image generation has immense potential in medical imaging because open-source medical images are difficult to obtain compared to natural images, especially for rare conditions. The generated images can be used later to train classification and segmentation models. In this paper, we propose simulating realistic ultrasound (US) images by successive fine-tuning of large diffusion models on different publicly available databases. To do so, we fine-tuned Stable Diffusion, a state-of-the-art latent diffusion model, on BUSI (Breast US Images) an ultrasound breast image dataset. We successfully generated high-quality US images of the breast using simple prompts that specify the organ and pathology, which appeared realistic to three experienced US scientists and a US radiologist. Additionally, we provided user control by conditioning the model with segmentations through ControlNet. We will release the source code at http://code.sonography.ai/ to allow fast US image generation to the scientific community.

arxiv情報

著者 Benoit Freiche,Anthony El-Khoury,Ali Nasiri-Sarvi,Mahdi S. Hosseini,Damien Garcia,Adrian Basarab,Mathieu Boily,Hassan Rivaz
発行日 2025-02-12 17:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-06, cs.CV | Ultrasound Image Generation using Latent Diffusion Models はコメントを受け付けていません

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

要約

大規模なデータセットと事前に訓練された拡散モデルによって駆動される画像の学習モデルの最近の進歩により、一貫した照明の賦課が可能になりました。
ただし、主に過剰なトレーニングコストと多様で高品質のビデオ再生データセットの不足のために、ビデオの再生はまだ遅れています。
フレームごとに画像の再照明モデルを簡単にアプリケーションすると、いくつかの問題が発生します。照明ソースの矛盾と再生外観の矛盾があり、生成されたビデオにちらつきができます。
この作業では、一時的にスムーズなビデオの学習を実現するためのトレーニングなしのアプローチであるLight-A-Videoを提案します。
イメージの再視力モデルから適応したLight-A-Videoは、照明の一貫性を高めるために2つの重要な手法を導入します。
まず、一貫した光の注意(CLA)モジュールを設計します。これにより、自己攻撃層内のクロスフレーム相互作用が強化され、バックグラウンド照明ソースの生成を安定させます。
第二に、光輸送の独立性の物理的原理を活用すると、ソースビデオの外観と再生外観の間に線形ブレンドを適用し、プログレッシブ光融合(PLF)戦略を使用して、照明でのスムーズな時間的遷移を確保します。
実験では、ライトA-A-Videoは、画質を維持しながら、再生ビデオの時間的一貫性を改善し、フレーム間のコヒーレントな照明遷移を確保することを示しています。
プロジェクトページ:https://bujiazi.github.io/light-a-video.github.io/。

要約(オリジナル)

Recent advancements in image relighting models, driven by large-scale datasets and pre-trained diffusion models, have enabled the imposition of consistent lighting. However, video relighting still lags, primarily due to the excessive training costs and the scarcity of diverse, high-quality video relighting datasets. A simple application of image relighting models on a frame-by-frame basis leads to several issues: lighting source inconsistency and relighted appearance inconsistency, resulting in flickers in the generated videos. In this work, we propose Light-A-Video, a training-free approach to achieve temporally smooth video relighting. Adapted from image relighting models, Light-A-Video introduces two key techniques to enhance lighting consistency. First, we design a Consistent Light Attention (CLA) module, which enhances cross-frame interactions within the self-attention layers to stabilize the generation of the background lighting source. Second, leveraging the physical principle of light transport independence, we apply linear blending between the source video’s appearance and the relighted appearance, using a Progressive Light Fusion (PLF) strategy to ensure smooth temporal transitions in illumination. Experiments show that Light-A-Video improves the temporal consistency of relighted video while maintaining the image quality, ensuring coherent lighting transitions across frames. Project page: https://bujiazi.github.io/light-a-video.github.io/.

arxiv情報

著者 Yujie Zhou,Jiazi Bu,Pengyang Ling,Pan Zhang,Tong Wu,Qidong Huang,Jinsong Li,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Anyi Rao,Jiaqi Wang,Li Niu
発行日 2025-02-12 17:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Light-A-Video: Training-free Video Relighting via Progressive Light Fusion はコメントを受け付けていません