Event-Enhanced Blurry Video Super-Resolution

要約

この論文では、低解像度(LR)とぼやけた入力から高解像度(HR)ビデオの生成を目指して、ぼやけたビデオスーパー解像度(BVSR)のタスクに取り組みます。
現在のBVSRメソッドは、多くの場合、高解像度で鋭い詳細を復元できないため、デコンボリューションのためのモーション情報が不十分であるため、LRフレームの高周波の詳細がないため、顕著なアーティファクトとジッターが発生します。
これらの課題に対処するために、イベントシグナルをBVSRに導入し、新しいイベント強化ネットワークであるEV-DEBLURVSRを提案します。
フレームとイベントから情報を効果的に融合させるために、機能を除去するために、フレーム内イベントからモーション情報をレバレバリングする相互の機能を導入し、フレームからグローバルシーンコンテキストを使用してイベント機能を強化します。
さらに、時間的一貫性を高めるために、変形可能なアライメントプロセスのモーション推定を改善するために、フレーム間イベントと光学フローからの相補的なモーション情報を完全に活用するハイブリッド変形可能なアライメントモジュールを提案します。
広範な評価は、EV-Deblurvsrが合成データセットと現実世界の両方のデータセットで新しい最先端のパフォーマンスを確立することを示しています。
特に、実際のデータでは、私たちの方法は+2.59 dBの精度が高く、最近のBVSRベースラインFMA-NETよりも高速です。
コード:https://github.com/dachunkai/ev-deblurvsr。

要約(オリジナル)

In this paper, we tackle the task of blurry video super-resolution (BVSR), aiming to generate high-resolution (HR) videos from low-resolution (LR) and blurry inputs. Current BVSR methods often fail to restore sharp details at high resolutions, resulting in noticeable artifacts and jitter due to insufficient motion information for deconvolution and the lack of high-frequency details in LR frames. To address these challenges, we introduce event signals into BVSR and propose a novel event-enhanced network, Ev-DeblurVSR. To effectively fuse information from frames and events for feature deblurring, we introduce a reciprocal feature deblurring module that leverages motion information from intra-frame events to deblur frame features while reciprocally using global scene context from the frames to enhance event features. Furthermore, to enhance temporal consistency, we propose a hybrid deformable alignment module that fully exploits the complementary motion information from inter-frame events and optical flow to improve motion estimation in the deformable alignment process. Extensive evaluations demonstrate that Ev-DeblurVSR establishes a new state-of-the-art performance on both synthetic and real-world datasets. Notably, on real data, our method is +2.59 dB more accurate and 7.28$\times$ faster than the recent best BVSR baseline FMA-Net. Code: https://github.com/DachunKai/Ev-DeblurVSR.

arxiv情報

著者 Dachun Kai,Yueyi Zhang,Jin Wang,Zeyu Xiao,Zhiwei Xiong,Xiaoyan Sun
発行日 2025-04-17 15:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Event-Enhanced Blurry Video Super-Resolution はコメントを受け付けていません

Expert Kernel Generation Network Driven by Contextual Mapping for Hyperspectral Image Classification

要約

深いニューラルネットワークは、高次元データ、地上オブジェクトのまばらな分布、スペクトル冗長性など、ハイパースペクトル画像分類におけるいくつかの課題に直面しています。
このホワイトペーパーでは、画像機能を導入せずに画像機能を抽出しながら、コンテキストマッピングネットワークと動的カーネル生成モジュールで構成される改善された3Dデンセネットモデルに基づいてEkGnetを提案します。
コンテキストアウェアマッピングモジュールは、ハイパースペクトル入力のグローバルなコンテキスト情報をベース畳み込みカーネルを組み合わせるための命令に変換しますが、動的カーネルは、さまざまな次元にわたって基本的なパターンに特化したKさまざまなタイプの専門家に類似した基本畳み込みのkグループで構成されます。
マッピングモジュールとダイナミックカーネル生成メカニズムは、しっかりと結合されたシステムを形成します – 前者は入力に基づいて意味のある組み合わせ重みを生成し、後者はこれらの重みを使用して適応的な専門家畳み込みシステムを構築します。
この動的なアプローチにより、モデルは、単一の静的畳み込みカーネルの固定受容フィールドに依存するのではなく、異なる領域を処理するときに、主要な空間構造により柔軟に焦点を合わせます。
Ekgnetは、ネットワークの深さや幅を増やすことなく、3Dダイナミックエキスパートの畳み込みシステムを通じてモデル表現機能を強化します。
提案された方法は、IN、UP、およびKSCデータセットの優れたパフォーマンスを示し、主流のハイパースペクトル画像分類アプローチを上回ります。

要約(オリジナル)

Deep neural networks face several challenges in hyperspectral image classification, including high-dimensional data, sparse distribution of ground objects, and spectral redundancy, which often lead to classification overfitting and limited generalization capability. To more efficiently adapt to ground object distributions while extracting image features without introducing excessive parameters and skipping redundant information, this paper proposes EKGNet based on an improved 3D-DenseNet model, consisting of a context-aware mapping network and a dynamic kernel generation module. The context-aware mapping module translates global contextual information of hyperspectral inputs into instructions for combining base convolutional kernels, while the dynamic kernels are composed of K groups of base convolutions, analogous to K different types of experts specializing in fundamental patterns across various dimensions. The mapping module and dynamic kernel generation mechanism form a tightly coupled system – the former generates meaningful combination weights based on inputs, while the latter constructs an adaptive expert convolution system using these weights. This dynamic approach enables the model to focus more flexibly on key spatial structures when processing different regions, rather than relying on the fixed receptive field of a single static convolutional kernel. EKGNet enhances model representation capability through a 3D dynamic expert convolution system without increasing network depth or width. The proposed method demonstrates superior performance on IN, UP, and KSC datasets, outperforming mainstream hyperspectral image classification approaches.

arxiv情報

著者 Guandong Li,Mengxia Ye
発行日 2025-04-17 16:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Expert Kernel Generation Network Driven by Contextual Mapping for Hyperspectral Image Classification はコメントを受け付けていません

A Coding-Theoretic Analysis of Hyperspherical Prototypical Learning Geometry

要約

Hyperspherical Prototypical Learning(HPL)は、ユニットハイパースフィアでクラスのプロトタイプを設計する表現学習に対する監視されたアプローチです。
プロトタイプは、スケールの不変および既知のジオメトリでのクラス分離への表現をバイアスします。
HPLへの以前のアプローチには、次の欠点のいずれかがあります。(i)それらは、原因のない最適化手順に従います。
または(ii)理論的には健全ですが、潜在的な寸法のみに制約されています。
この論文では、両方の欠点に対処します。
(i)に対処するために、ソリューションが最適であることを示す原則的な最適化手順を提示します。
(ii)に対処するために、線形ブロックコードを使用して、広範囲の寸法で適切に分離されたプロトタイプを構築します。
さらに、達成可能な境界と逆の境界に関して、最適なプロトタイプ配置の完全な特性評価を与え、提案された方法がほぼ最適であることを示しています。

要約(オリジナル)

Hyperspherical Prototypical Learning (HPL) is a supervised approach to representation learning that designs class prototypes on the unit hypersphere. The prototypes bias the representations to class separation in a scale invariant and known geometry. Previous approaches to HPL have either of the following shortcomings: (i) they follow an unprincipled optimisation procedure; or (ii) they are theoretically sound, but are constrained to only one possible latent dimension. In this paper, we address both shortcomings. To address (i), we present a principled optimisation procedure whose solution we show is optimal. To address (ii), we construct well-separated prototypes in a wide range of dimensions using linear block codes. Additionally, we give a full characterisation of the optimal prototype placement in terms of achievable and converse bounds, showing that our proposed methods are near-optimal.

arxiv情報

著者 Martin Lindström,Borja Rodríguez-Gálvez,Ragnar Thobaben,Mikael Skoglund
発行日 2025-04-17 16:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP, stat.ML | A Coding-Theoretic Analysis of Hyperspherical Prototypical Learning Geometry はコメントを受け付けていません

CDXLSTM: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory

要約

複雑なシーンやさまざまな条件では、変化を正確に識別するためには、空間的コンテキストを効果的に統合することが重要です。
ただし、現在のRS-CDメソッドには、パフォーマンスと効率のバランスの取れた考慮事項がありません。
CNNSにはグローバルなコンテキストがなく、変圧器は計算的に高価であり、MambasはCUDA依存と局所相関の損失に直面しています。
このホワイトペーパーでは、強力なXLSTMベースの特徴強化層であるコアコンポーネントを備えたCDXLSTMを提案し、線形計算の複雑さ、グローバルコンテキスト認識、強力な解釈可能性の利点を統合します。
具体的には、スケール固有の特徴エンハンサー層を紹介します。これは、セマンティックアクセラの深い特徴用にカスタマイズされた時代の世界的なグローバルパーセプトロンと、詳細に豊富な浅い浅い機能用にカスタマイズされた時代の空間的な精製所を組み込んでいます。
さらに、クロススケールのインタラクティブフュージョンモジュールを提案して、グローバルな変化表現と空間的応答を徐々に相互作用させます。
広範な実験結果は、CDXLSTMが3つのベンチマークデータセットで最先端のパフォーマンスを達成し、効率と精度の魅力的なバランスを提供することを示しています。
コードはhttps://github.com/xwmaxwma/rschangeで入手できます。

要約(オリジナル)

In complex scenes and varied conditions, effectively integrating spatial-temporal context is crucial for accurately identifying changes. However, current RS-CD methods lack a balanced consideration of performance and efficiency. CNNs lack global context, Transformers are computationally expensive, and Mambas face CUDA dependence and local correlation loss. In this paper, we propose CDXLSTM, with a core component that is a powerful XLSTM-based feature enhancement layer, integrating the advantages of linear computational complexity, global context perception, and strong interpret-ability. Specifically, we introduce a scale-specific Feature Enhancer layer, incorporating a Cross-Temporal Global Perceptron customized for semantic-accurate deep features, and a Cross-Temporal Spatial Refiner customized for detail-rich shallow features. Additionally, we propose a Cross-Scale Interactive Fusion module to progressively interact global change representations with spatial responses. Extensive experimental results demonstrate that CDXLSTM achieves state-of-the-art performance across three benchmark datasets, offering a compelling balance between efficiency and accuracy. Code is available at https://github.com/xwmaxwma/rschange.

arxiv情報

著者 Zhenkai Wu,Xiaowen Ma,Rongrong Lian,Kai Zheng,Wei Zhang
発行日 2025-04-17 16:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | CDXLSTM: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory はコメントを受け付けていません

NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

要約

強化学習(RL)の最近の進歩により、視覚言語モデル(VLM)の推論能力が強化されました。
ただし、より効果的にテスト時間計算をより効果的にスケーリングするためのポリシー探索を強化することは、VLMSでは採用されていないままです。
さらに、VLMは不完全な視覚的知覚に苦労し続け、その後の推論プロセスに影響を与えます。
この目的のために、視覚的知覚と結果として得られる推論パターンにターゲットを絞った多様性を導入するために、クリーンな画像と中程度に歪んだ画像の両方から軌跡を組み合わせたシンプルで効果的なRLアプローチであるNoisyrolloutを提案します。
追加のトレーニングコストがなければ、noisyrolloutは、ビジョン指向の誘導バイアスを組み込むことにより、VLMSの探索機能を強化します。
さらに、Noisyrolloutは、トレーニングよりも歪みの強度を徐々に減らすノイズアニーリングスケジュールを採用しており、トレーニングの安定性とスケーラビリティを後の段階で維持しながら、ノイズの多いシグナルの利益を早期に保証します。
わずか2.1kのトレーニングサンプルで、Noisyrolloutは、推論と認識の両方のタスクにまたがる5つのドメイン外のベンチマークで、オープンソースのRLチューニングモデル間で最先端のパフォーマンスを達成し、同等またはより優れたドメイン内パフォーマンスを維持します。

要約(オリジナル)

Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to more effectively scale test-time compute remains underexplored in VLMs. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. To this end, we propose NoisyRollout, a simple yet effective RL approach that mixes trajectories from both clean and moderately distorted images to introduce targeted diversity in visual perception and the resulting reasoning patterns. Without additional training cost, NoisyRollout enhances the exploration capabilities of VLMs by incorporating a vision-oriented inductive bias. Furthermore, NoisyRollout employs a noise annealing schedule that gradually reduces distortion strength over training, ensuring benefit from noisy signals early while maintaining training stability and scalability in later stages. With just 2.1K training samples, NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models on 5 out-of-domain benchmarks spanning both reasoning and perception tasks, while preserving comparable or even better in-domain performance.

arxiv情報

著者 Xiangyan Liu,Jinjie Ni,Zijian Wu,Chao Du,Longxu Dou,Haonan Wang,Tianyu Pang,Michael Qizhe Shieh
発行日 2025-04-17 16:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation はコメントを受け付けていません

Imaging for All-Day Wearable Smart Glasses

要約

近年、Smart Glasses Technologyは急速に進歩しており、モバイルコンピューティングのためのまったく新しい領域を開設しています。
将来のスマートメガネは終日ウェアラブルである必要があり、体積、重量、ファッショナビリティ、社会的受容性の要件を満たすために小さなフォームファクターを採用し、可能なソリューションの空間に大きな制約を課すことを期待しています。
スマートグラスが任意の環境で着用されている間、着用者が移動して日常の活動を実行するという事実により、追加の課題が生じます。
この論文では、スマートグラスからのイメージングの空間を体系的に分析し、このイメージングドメインを管理するいくつかの基本的な制限を導き出します。
これらの制限が達成可能な画質とカメラモジュールのサイズに及ぼす影響について説明します。特に携帯電話などの関連デバイスと比較しています。
次に、標準的なモノリシックカメラの設計と比較した場合、個々のカメラモジュールのサイズを最小限に抑えることができる新しい分散イメージングアプローチを提案します。
最後に、合成データと2つの異なるプロトタイプ実装でキャプチャされた画像を使用した一連の実験で、この新しいアプローチの特性を示します。

要約(オリジナル)

In recent years smart glasses technology has rapidly advanced, opening up entirely new areas for mobile computing. We expect future smart glasses will need to be all-day wearable, adopting a small form factor to meet the requirements of volume, weight, fashionability and social acceptability, which puts significant constraints on the space of possible solutions. Additional challenges arise due to the fact that smart glasses are worn in arbitrary environments while their wearer moves and performs everyday activities. In this paper, we systematically analyze the space of imaging from smart glasses and derive several fundamental limits that govern this imaging domain. We discuss the impact of these limits on achievable image quality and camera module size — comparing in particular to related devices such as mobile phones. We then propose a novel distributed imaging approach that allows to minimize the size of the individual camera modules when compared to a standard monolithic camera design. Finally, we demonstrate the properties of this novel approach in a series of experiments using synthetic data as well as images captured with two different prototype implementations.

arxiv情報

著者 Michael Goesele,Daniel Andersen,Yujia Chen,Simon Green,Eddy Ilg,Chao Li,Johnson Liu,Grace Kuo,Logan Wan,Richard Newcombe
発行日 2025-04-17 16:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Imaging for All-Day Wearable Smart Glasses はコメントを受け付けていません

ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models

要約

Dall-E、安定した拡散、Midjourneyなどの拡散プロセスに基づいたテキストから画像へのモデルは、テキストを詳細な画像に変換することができ、アートとデザインに広範なアプリケーションを持っています。
そのため、アマチュアユーザーは、アーティストの作品を収集し、モデルを微調整することで、プロのレベルの絵画を簡単に模倣でき、Artworksの著作権侵害に関する懸念につながります。
これらの問題に取り組むために、以前の研究は、視覚的に知覚できない摂動をアートワークに追加して、その基礎となるスタイル(摂動ベースの方法)を変更するか、アートワークにトレーニング後の検出可能な透かし(透かしベースの方法)を埋め込みます。
ただし、アートワークまたはモデルがオンラインで公開されている場合、つまり、元のアートワークまたはモデルの再訓練の変更が実行不可能である場合、これらの戦略は実行できない可能性があります。
この目的のために、テキストから画像の生成モデルでデータ使用監査のための新しい方法を提案します。
ArtistAuditorの一般的なアイデアは、スタイルに関連する機能を分析することにより、特定のアーティストのアートワークを使用して、疑わしいモデルが微調整されているかどうかを特定することです。
具体的には、ArtistAuditorはスタイル抽出器を採用してマルチ粒度スタイルの表現を取得し、アーティストのスタイルのサンプリングとしてアートワークを扱います。
次に、ArtistAuditorは訓練された差別装置を照会して、監査の決定を取得します。
モデルとデータセットの6つの組み合わせでの実験結果は、ArtistAuditorが高いAUC値を達成できることを示しています(> 0.937)。
ArtistAuditorの転送可能性とコアモジュールを研究することにより、実際の実装に関する貴重な洞察を提供します。
最後に、オンラインプラットフォームシナリオにより、実際のケースでArtistAuditorの有効性を実証します。
ArtistAuditorはhttps://github.com/jozenn/artistauditorでオープンソーシングされています。

要約(オリジナル)

Text-to-image models based on diffusion processes, such as DALL-E, Stable Diffusion, and Midjourney, are capable of transforming texts into detailed images and have widespread applications in art and design. As such, amateur users can easily imitate professional-level paintings by collecting an artist’s work and fine-tuning the model, leading to concerns about artworks’ copyright infringement. To tackle these issues, previous studies either add visually imperceptible perturbation to the artwork to change its underlying styles (perturbation-based methods) or embed post-training detectable watermarks in the artwork (watermark-based methods). However, when the artwork or the model has been published online, i.e., modification to the original artwork or model retraining is not feasible, these strategies might not be viable. To this end, we propose a novel method for data-use auditing in the text-to-image generation model. The general idea of ArtistAuditor is to identify if a suspicious model has been finetuned using the artworks of specific artists by analyzing the features related to the style. Concretely, ArtistAuditor employs a style extractor to obtain the multi-granularity style representations and treats artworks as samplings of an artist’s style. Then, ArtistAuditor queries a trained discriminator to gain the auditing decisions. The experimental results on six combinations of models and datasets show that ArtistAuditor can achieve high AUC values (> 0.937). By studying ArtistAuditor’s transferability and core modules, we provide valuable insights into the practical implementation. Finally, we demonstrate the effectiveness of ArtistAuditor in real-world cases by an online platform Scenario. ArtistAuditor is open-sourced at https://github.com/Jozenn/ArtistAuditor.

arxiv情報

著者 Linkang Du,Zheng Zhu,Min Chen,Zhou Su,Shouling Ji,Peng Cheng,Jiming Chen,Zhikun Zhang
発行日 2025-04-17 16:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models はコメントを受け付けていません

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance

要約

心エコー検査は、心血管疾患の検出に不可欠ですが、経験豊富な超音波検査学者に大きく依存しています。
心エコー検査プローブガイダンスシステムは、標準の平面画像を取得するためのリアルタイムの動きの指示を提供し、AIアシストまたは完全自律スキャンの有望なソリューションを提供します。
ただし、このタスクの効果的な機械学習モデルの開発は、心臓の解剖学とプローブの動きと視覚信号の間の複雑な相互作用を把握する必要があるため、依然として困難なままです。
これに対処するために、解剖学的知識と動き誘発性の視覚的ダイナミクスをコードするプローブガイダンスのための動きのある世界モデリングフレームワークであるEchoworldを提示し、過去の視覚運動シーケンスを効果的に活用してガイダンスの精度を強化します。
Echoworldは、モデルがマスクされた解剖学的領域を予測し、プローブ調整の視覚的結果をシミュレートする世界モデリングの原則に触発されたトレーニング前の戦略を採用しています。
この事前に訓練されたモデルに基づいて構築され、微調整段階で、歴史的な視覚運動データを効果的に統合し、正確で適応的なプローブガイダンスを可能にするモーション認識の注意メカニズムを導入します。
200を超えるルーチンスキャンから100万枚以上の超音波画像で訓練されたEchoworldは、定性分析によって検証されているように、重要な心エコー知識を効果的に捉えています。
さらに、この方法は、既存の視覚的バックボーンやガイダンスフレームワークと比較してガイダンスエラーを大幅に削減し、単一フレームとシーケンシャルの評価プロトコルの両方に優れています。
コードはhttps://github.com/leaplabthu/echoworldで入手できます。

要約(オリジナル)

Echocardiography is crucial for cardiovascular disease detection but relies heavily on experienced sonographers. Echocardiography probe guidance systems, which provide real-time movement instructions for acquiring standard plane images, offer a promising solution for AI-assisted or fully autonomous scanning. However, developing effective machine learning models for this task remains challenging, as they must grasp heart anatomy and the intricate interplay between probe motion and visual signals. To address this, we present EchoWorld, a motion-aware world modeling framework for probe guidance that encodes anatomical knowledge and motion-induced visual dynamics, while effectively leveraging past visual-motion sequences to enhance guidance precision. EchoWorld employs a pre-training strategy inspired by world modeling principles, where the model predicts masked anatomical regions and simulates the visual outcomes of probe adjustments. Built upon this pre-trained model, we introduce a motion-aware attention mechanism in the fine-tuning stage that effectively integrates historical visual-motion data, enabling precise and adaptive probe guidance. Trained on more than one million ultrasound images from over 200 routine scans, EchoWorld effectively captures key echocardiographic knowledge, as validated by qualitative analysis. Moreover, our method significantly reduces guidance errors compared to existing visual backbones and guidance frameworks, excelling in both single-frame and sequential evaluation protocols. Code is available at https://github.com/LeapLabTHU/EchoWorld.

arxiv情報

著者 Yang Yue,Yulin Wang,Haojun Jiang,Pan Liu,Shiji Song,Gao Huang
発行日 2025-04-17 16:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance はコメントを受け付けていません

HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation

要約

シーンレベルの3D世代は、マルチメディアとコンピューターグラフィックスの重要なフロンティアを表していますが、既存のアプローチは、限られたオブジェクトカテゴリに悩まされるか、インタラクティブアプリケーションの柔軟性の編集を欠いています。
この論文では、2D画像生成と3Dオブジェクト生成のギャップを埋め、作曲のアイデンティティと美的シーンのコンテンツを備えた高忠実度のシーンを提供する新しい階層的なフレームワークであるHisceneを紹介します。
私たちの重要な洞察は、等尺性ビューの下でシーンを階層的な「オブジェクト」として扱うことです。そこでは、部屋は操作可能なアイテムにさらに分解できる複雑なオブジェクトとして機能します。
この階層的アプローチにより、構成構造を維持しながら2D表現と整列する3Dコンテンツを生成できます。
各分解されたインスタンスの完全性と空間的アライメントを確保するために、オブジェクト間の閉塞と影を効果的に処理するビデオ拡散ベースのアモダル完了手法を開発し、シーン内の空間的一貫性を確保するために形状の事前注入を導入します。
実験結果は、この方法がより自然なオブジェクトの配置とインタラクティブなアプリケーションに適した完全なオブジェクトインスタンスを生成し、ユーザー入力との物理的妥当性と整合性を維持することを示しています。

要約(オリジナル)

Scene-level 3D generation represents a critical frontier in multimedia and computer graphics, yet existing approaches either suffer from limited object categories or lack editing flexibility for interactive applications. In this paper, we present HiScene, a novel hierarchical framework that bridges the gap between 2D image generation and 3D object generation and delivers high-fidelity scenes with compositional identities and aesthetic scene content. Our key insight is treating scenes as hierarchical ‘objects’ under isometric views, where a room functions as a complex object that can be further decomposed into manipulatable items. This hierarchical approach enables us to generate 3D content that aligns with 2D representations while maintaining compositional structure. To ensure completeness and spatial alignment of each decomposed instance, we develop a video-diffusion-based amodal completion technique that effectively handles occlusions and shadows between objects, and introduce shape prior injection to ensure spatial coherence within the scene. Experimental results demonstrate that our method produces more natural object arrangements and complete object instances suitable for interactive applications, while maintaining physical plausibility and alignment with user inputs.

arxiv情報

著者 Wenqi Dong,Bangbang Yang,Zesong Yang,Yuan Li,Tao Hu,Hujun Bao,Yuewen Ma,Zhaopeng Cui
発行日 2025-04-17 16:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation はコメントを受け付けていません

SkyReels-V2: Infinite-length Film Generative Model

要約

ビデオ生成の最近の進歩は、拡散モデルと自己回帰フレームワークによって推進されていますが、迅速なアドヒアランス、視覚品質、モーションダイナミクス、および持続時間の調和に重大な課題が続いています。動きのダイナミクスの妥協は、一時的な視覚品質を強化し、制約されたビデオ持続時間(5〜10秒)を強化して解決策を優先し、障害のあるGrimcationを解釈することを妨げているショットアウェアの世代を解釈します。
ショットの構成、俳優の表現、カメラの動き。
これらの絡み合った制限は、現実的な長型の統合とプロの映画スタイルの世代を妨げます。
これらの制限に対処するために、マルチモーダルラージランゲージモデル(MLLM)、マルチステージの事前トレーニング、補強学習、および拡散強制フレームワークを相乗的にする無限の長さのフィルム生成モデルであるSkyreels-V2を提案します。
まず、マルチモーダルLLMとサブ専門モデルによる詳細なショット言語を組み合わせたビデオの包括的な構造表現を設計します。
その後、人間の注釈を支援し、Skycaptioner-V1という名前の統一ビデオキャプションを訓練して、ビデオデータを効率的にラベル付けします。
第二に、基本的なビデオ生成のためにプログレッシブ解像度の事前化を確立し、続いてトレーニング後の4段階の拡張を続けます。
人間と合成の歪みデータを使用したモーション固有の強化学習(RL)トレーニングは、動的アーティファクトに対処します。
非脱落ノイズスケジュールを使用した当社の拡散強制フレームワークにより、効率的な検索スペースで長距離合成が可能になります。
最終的な高品質のSFTは、視覚的な忠実度を改良します。
すべてのコードとモデルは、https://github.com/skyworkai/skyreels-v2で入手できます。

要約(オリジナル)

Recent advances in video generation have been driven by diffusion models and autoregressive frameworks, yet critical challenges persist in harmonizing prompt adherence, visual quality, motion dynamics, and duration: compromises in motion dynamics to enhance temporal visual quality, constrained video duration (5-10 seconds) to prioritize resolution, and inadequate shot-aware generation stemming from general-purpose MLLMs’ inability to interpret cinematic grammar, such as shot composition, actor expressions, and camera motions. These intertwined limitations hinder realistic long-form synthesis and professional film-style generation. To address these limitations, we propose SkyReels-V2, an Infinite-length Film Generative Model, that synergizes Multi-modal Large Language Model (MLLM), Multi-stage Pretraining, Reinforcement Learning, and Diffusion Forcing Framework. Firstly, we design a comprehensive structural representation of video that combines the general descriptions by the Multi-modal LLM and the detailed shot language by sub-expert models. Aided with human annotation, we then train a unified Video Captioner, named SkyCaptioner-V1, to efficiently label the video data. Secondly, we establish progressive-resolution pretraining for the fundamental video generation, followed by a four-stage post-training enhancement: Initial concept-balanced Supervised Fine-Tuning (SFT) improves baseline quality; Motion-specific Reinforcement Learning (RL) training with human-annotated and synthetic distortion data addresses dynamic artifacts; Our diffusion forcing framework with non-decreasing noise schedules enables long-video synthesis in an efficient search space; Final high-quality SFT refines visual fidelity. All the code and models are available at https://github.com/SkyworkAI/SkyReels-V2.

arxiv情報

著者 Guibin Chen,Dixuan Lin,Jiangping Yang,Chunze Lin,Juncheng Zhu,Mingyuan Fan,Hao Zhang,Sheng Chen,Zheng Chen,Chengchen Ma,Weiming Xiong,Wei Wang,Nuo Pang,Kang Kang,Zhiheng Xu,Yuzhe Jin,Yupeng Liang,Yubing Song,Peng Zhao,Boyuan Xu,Di Qiu,Debang Li,Zhengcong Fei,Yang Li,Yahui Zhou
発行日 2025-04-17 16:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkyReels-V2: Infinite-length Film Generative Model はコメントを受け付けていません