Targeted Forgetting of Image Subgroups in CLIP Models

要約

CLIPのような基盤モデル(FM)は、大規模な教師なし事前学習を活用することで、様々なタスクにおいてゼロショットの素晴らしい性能を実証してきた。しかし、ノイズの多いインターネット上のデータセットから有害な知識や不要な知識を受け継ぐことが多く、実世界のアプリケーションにおける信頼性が損なわれています。既存のモデル学習解除手法は、事前訓練されたデータセットへのアクセスに依存するか、粗視化された学習解除(例えばクラス全体)に焦点を当てるかのどちらかであり、細視化された学習解除には決定的なギャップが残されている。本論文では、モデルの全体的な性能を維持しつつ、事前訓練データにアクセスすることなく、クラス内の知識の特定の部分を選択的に忘れるという困難なシナリオに取り組む。我々は、過剰忘却を緩和しつつ、対象となる知識を段階的に学習解除する、新しい3段階のアプローチを提案する。これは、(1)忘れ去られるサンプル上でCLIPを微調整する忘却段階、(2)保持されたサンプル上で性能を回復させる思い出させる段階、(3)モデルスーピングを用いてゼロショット能力を回復させる回復段階から構成される。さらに、忘却、保持サンプル、未見事前学習データ間の分布の不一致を扱うために知識蒸留を導入する。CIFAR-10、ImageNet-1K、およびstyleデータセットに対する広範な実験により、我々のアプローチが、意味的に類似したサブグループや他のカテゴリに対する強力なゼロショット性能を維持しながら、特定のサブグループを効果的に学習解除することが実証され、CLIP学習解除設定の下では有効性を失うベースラインの学習解除手法を大幅に上回る。

要約(オリジナル)

Foundation models (FMs) such as CLIP have demonstrated impressive zero-shot performance across various tasks by leveraging large-scale, unsupervised pre-training. However, they often inherit harmful or unwanted knowledge from noisy internet-sourced datasets, compromising their reliability in real-world applications. Existing model unlearning methods either rely on access to pre-trained datasets or focus on coarse-grained unlearning (e.g., entire classes), leaving a critical gap for fine-grained unlearning. In this paper, we address the challenging scenario of selectively forgetting specific portions of knowledge within a class, without access to pre-trained data, while preserving the model’s overall performance. We propose a novel three-stage approach that progressively unlearns targeted knowledge while mitigating over-forgetting. It consists of (1) a forgetting stage to fine-tune the CLIP on samples to be forgotten, (2) a reminding stage to restore performance on retained samples, and (3) a restoring stage to recover zero-shot capabilities using model souping. Additionally, we introduce knowledge distillation to handle the distribution disparity between forgetting, retaining samples, and unseen pre-trained data. Extensive experiments on CIFAR-10, ImageNet-1K, and style datasets demonstrate that our approach effectively unlearns specific subgroups while maintaining strong zero-shot performance on semantically similar subgroups and other categories, significantly outperforming baseline unlearning methods, which lose effectiveness under the CLIP unlearning setting.

arxiv情報

著者 Zeliang Zhang,Gaowen Liu,Charles Fleming,Ramana Rao Kompella,Chenliang Xu
発行日 2025-06-03 17:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Targeted Forgetting of Image Subgroups in CLIP Models はコメントを受け付けていません

Controllable Human-centric Keyframe Interpolation with Generative Prior

要約

既存の補間手法は、疎にサンプリングされたキーフレーム間の中間フレームを生成するために、事前に訓練されたビデオ拡散プリオールを使用する。3次元幾何学的なガイダンスがない場合、これらの手法は、複雑で関節のある人間の動きに対して、もっともらしい結果を生成するのに苦労し、合成されたダイナミクスの制御も限定的である。本論文では、PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI)を紹介します。PoseFuse3D Keyframe Interpolatorは、Controllable Human-centric Keyframe Interpolation (CHIK)の拡散プロセスに3Dヒューマンガイダンス信号を統合する新しいフレームワークです。補間のための豊富な空間的・構造的手がかりを提供するために、3D情報に基づく制御モデルである我々のPoseFuse3Dは、3Dのジオメトリと形状を2Dの潜在条件空間に変換する新しいSMPL-Xエンコーダと、これらの3D手がかりを2Dのポーズ埋め込みと統合する融合ネットワークを備えています。評価のために、2Dポーズと3D SMPL-Xパラメータの両方でアノテーションされた新しいデータセットであるCHKI-Videoを構築する。CHKI-Videoにおいて、PoseFuse3D-KIは常に最先端のベースラインを上回り、PSNRで9%の改善、LPIPSで38%の削減を達成した。包括的なアブレーションは、我々のPoseFuse3Dモデルが補間の忠実度を向上させることを示している。

要約(オリジナル)

Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.

arxiv情報

著者 Zujin Guo,Size Wu,Zhongang Cai,Wei Li,Chen Change Loy
発行日 2025-06-03 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Controllable Human-centric Keyframe Interpolation with Generative Prior はコメントを受け付けていません

HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers

要約

人間の3D再構成とアニメーションは、コンピュータグラフィックスとビジョンにおける長年のテーマである。しかし、既存の手法は一般的に、精巧な密視野キャプチャや、時間のかかる被験者ごとの最適化手順に依存している。これらの限界に対処するために、我々は、単眼または疎な人物画像からの一般化可能な人物再構成とアニメーションのための新しいフィードフォワードアプローチであるHumanRAMを提案する。本アプローチでは、SMPL-Xニューラルテクスチャによってパラメータ化された明示的なポーズ条件を、変換器ベースの大規模再構成モデル(LRM)に導入することで、人間の再構成とアニメーションを統一的なフレームワークに統合する。関連するカメラパラメータとSMPL-Xポーズを持つ単眼または疎な入力画像が与えられたとき、我々のモデルはスケーラブルな変換器とDPTベースのデコーダを用い、新しい視点と新しいポーズの下でリアルな人間のレンダリングを合成する。明示的なポーズ条件を活用することで、我々のモデルは高品質な人間の再構成と、忠実度の高いポーズ制御アニメーションを同時に可能にする。実験によると、HumanRAMは、実世界のデータセットにおいて、再構成精度、アニメーションの忠実度、および汎化性能の点で従来の手法を大幅に上回っています。ビデオ結果はhttps://zju3dv.github.io/humanram/。

要約(オリジナル)

3D human reconstruction and animation are long-standing topics in computer graphics and vision. However, existing methods typically rely on sophisticated dense-view capture and/or time-consuming per-subject optimization procedures. To address these limitations, we propose HumanRAM, a novel feed-forward approach for generalizable human reconstruction and animation from monocular or sparse human images. Our approach integrates human reconstruction and animation into a unified framework by introducing explicit pose conditions, parameterized by a shared SMPL-X neural texture, into transformer-based large reconstruction models (LRM). Given monocular or sparse input images with associated camera parameters and SMPL-X poses, our model employs scalable transformers and a DPT-based decoder to synthesize realistic human renderings under novel viewpoints and novel poses. By leveraging the explicit pose conditions, our model simultaneously enables high-quality human reconstruction and high-fidelity pose-controlled animation. Experiments show that HumanRAM significantly surpasses previous methods in terms of reconstruction accuracy, animation fidelity, and generalization performance on real-world datasets. Video results are available at https://zju3dv.github.io/humanram/.

arxiv情報

著者 Zhiyuan Yu,Zhe Li,Hujun Bao,Can Yang,Xiaowei Zhou
発行日 2025-06-03 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR | HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers はコメントを受け付けていません

AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

要約

最近のAI生成コンテンツ(AIGC)の進歩により、アニメーション制作が大幅に加速している。魅力的なアニメーションを制作するためには、物語スクリプトとキャラクターリファレンスを備えた首尾一貫したマルチショットビデオクリップを生成することが不可欠である。しかし、既存の公開データセットは、主に現実世界のシナリオとグローバルな記述に焦点を当てており、一貫したキャラクターガイダンスのための参照画像が不足しています。このギャップを埋めるために、リファレンスガイド付きマルチショットアニメーションデータセットであるAnimeShooterを紹介する。AnimeShooterは、包括的な階層的アノテーションと、自動化されたパイプラインによるショット間の強力な視覚的一貫性を特徴としています。ストーリーレベルのアノテーションは、ストーリーの概要、主要シーン、メインキャラクターのプロフィールを参照画像とともに提供します。一方、ショットレベルのアノテーションは、ストーリーを連続するショットに分解し、それぞれにシーン、キャラクター、物語と説明的なビジュアルキャプションの両方をアノテーションします。さらに、専用のサブセットであるAnimeShooter-audioは、各ショットの同期されたオーディオトラック、オーディオ説明、音源を提供します。AnimeShooterの有効性を実証し、参照ガイド付きマルチショットビデオ生成タスクのベースラインを確立するために、マルチモーダル大規模言語モデル(MLLM)とビデオ拡散モデルを活用したAnimeShooterGenを紹介します。参照画像と以前に生成されたショットはまずMLLMによって処理され、参照とコンテキストの両方を意識した表現が生成される。実験結果は、AnimeShooterで学習されたモデルが、優れたクロスショットの視覚的一貫性と参照視覚ガイダンスへの準拠を達成することを示しており、コヒーレントなアニメーションビデオ生成のためのデータセットの価値を強調している。

要約(オリジナル)

Recent advances in AI-generated content (AIGC) have significantly accelerated animation production. To produce engaging animations, it is essential to generate coherent multi-shot video clips with narrative scripts and character references. However, existing public datasets primarily focus on real-world scenarios with global descriptions, and lack reference images for consistent character guidance. To bridge this gap, we present AnimeShooter, a reference-guided multi-shot animation dataset. AnimeShooter features comprehensive hierarchical annotations and strong visual consistency across shots through an automated pipeline. Story-level annotations provide an overview of the narrative, including the storyline, key scenes, and main character profiles with reference images, while shot-level annotations decompose the story into consecutive shots, each annotated with scene, characters, and both narrative and descriptive visual captions. Additionally, a dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each shot, along with audio descriptions and sound sources. To demonstrate the effectiveness of AnimeShooter and establish a baseline for the reference-guided multi-shot video generation task, we introduce AnimeShooterGen, which leverages Multimodal Large Language Models (MLLMs) and video diffusion models. The reference image and previously generated shots are first processed by MLLM to produce representations aware of both reference and context, which are then used as the condition for the diffusion model to decode the subsequent shot. Experimental results show that the model trained on AnimeShooter achieves superior cross-shot visual consistency and adherence to reference visual guidance, which highlight the value of our dataset for coherent animated video generation.

arxiv情報

著者 Lu Qiu,Yizhuo Li,Yuying Ge,Yixiao Ge,Ying Shan,Xihui Liu
発行日 2025-06-03 17:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation はコメントを受け付けていません

Native-Resolution Image Synthesis

要約

任意の解像度とアスペクト比の画像合成を可能にする、新しい生成モデリングパラダイムであるネイティブ解像度画像合成を紹介する。このアプローチは、従来の手法の核となる課題であった可変長の視覚的トークンをネイティブに扱うことにより、従来の固定解像度、正方形画像手法の限界を克服する。この目的を達成するために、解像度とアスペクト比の変化をノイズ除去処理内で明示的にモデル化するように設計されたアーキテクチャであるNative-resolution diffusion Transformer (NiT)を紹介する。固定フォーマットの制約から解放されたNiTは、幅広い解像度とアスペクト比の画像から、固有の視覚分布を学習する。注目すべきは、単一のNiTモデルが同時にImageNet-256×256と512×512の両方のベンチマークで最先端の性能を達成したことである。驚くべきことに、高度な大規模言語モデルに見られるロバストなゼロショット能力と同様に、ImageNetのみで訓練されたNiTは、優れたゼロショット汎化性能を示す。図1に示すように、これまで見たことのない高解像度(1536×1536など)や多様なアスペクト比(16:9、3:1、4:3など)で忠実度の高い画像を生成することに成功している。これらの結果は、視覚的生成モデリングと高度なLLM手法の橋渡しとして、ネイティブ解像度モデリングの大きな可能性を示している。

要約(オリジナル)

We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256×256 and 512×512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.

arxiv情報

著者 Zidong Wang,Lei Bai,Xiangyu Yue,Wanli Ouyang,Yiyuan Zhang
発行日 2025-06-03 17:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Native-Resolution Image Synthesis はコメントを受け付けていません

Simulate Any Radar: Attribute-Controllable Radar Simulation via Waveform Parameter Embedding

要約

我々は、SA-Radar (Simulate Any Radar)を発表する。SA-Radarは、カスタマイズ可能なレーダー属性を条件として、制御可能で効率的なレーダーキューブの生成を可能にするレーダーシミュレーションアプローチである。SA-Radarは、従来の生成シミュレータや物理ベースのシミュレータとは異なり、波形パラメータ化された属性埋め込みにより、両方のパラダイムを統合している。ICFAR-Netは、異なるレーダー構成によって引き起こされる信号変動を捕捉する、波形パラメータによってエンコードされたレーダー属性を条件とする3次元U-Netである。この定式化により、レーダーハードウェアの詳細な仕様を必要とせず、多様なセンサー設定にわたるレンジ-方位角-ドップラー(RAD)テンソルの効率的なシミュレーションが可能となる。さらに、ネットワークをロバストに学習させるために、属性注釈付きの実シミュレーションデータセットを混合して構築する。2D/3D物体検出やレーダーセマンティックセグメンテーションを含む複数のダウンストリームタスクに関する広範な評価により、SA-Radarのシミュレーションデータが現実的かつ効果的であることが実証され、単独で、あるいは実データと組み合わせて使用することで、一貫してモデル性能が向上する。私たちのフレームワークは、新しいセンサ視点や編集されたシーンでのシミュレーションもサポートしており、自律走行アプリケーションのための汎用レーダーデータエンジンとしての可能性を示しています。コードと追加資料はhttps://zhuxing0.github.io/projects/SA-Radar。

要約(オリジナル)

We present SA-Radar (Simulate Any Radar), a radar simulation approach that enables controllable and efficient generation of radar cubes conditioned on customizable radar attributes. Unlike prior generative or physics-based simulators, SA-Radar integrates both paradigms through a waveform-parameterized attribute embedding. We design ICFAR-Net, a 3D U-Net conditioned on radar attributes encoded via waveform parameters, which captures signal variations induced by different radar configurations. This formulation bypasses the need for detailed radar hardware specifications and allows efficient simulation of range-azimuth-Doppler (RAD) tensors across diverse sensor settings. We further construct a mixed real-simulated dataset with attribute annotations to robustly train the network. Extensive evaluations on multiple downstream tasks-including 2D/3D object detection and radar semantic segmentation-demonstrate that SA-Radar’s simulated data is both realistic and effective, consistently improving model performance when used standalone or in combination with real data. Our framework also supports simulation in novel sensor viewpoints and edited scenes, showcasing its potential as a general-purpose radar data engine for autonomous driving applications. Code and additional materials are available at https://zhuxing0.github.io/projects/SA-Radar.

arxiv情報

著者 Weiqing Xiao,Hao Huang,Chonghao Zhong,Yujie Lin,Nan Wang,Xiaoxue Chen,Zhaoxi Chen,Saining Zhang,Shuocheng Yang,Pierre Merriaux,Lei Lei,Hao Zhao
発行日 2025-06-03 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.SP | Simulate Any Radar: Attribute-Controllable Radar Simulation via Waveform Parameter Embedding はコメントを受け付けていません

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

要約

空間推論は認知心理学の重要な側面であり、現在の視覚言語モデル(VLM)の大きなボトルネックとなっている。広範な研究が、左と右の区別、近くと遠くの区別、物体の数え方など、基本的な空間関係に対するVLMの理解を評価または改善することを目的としているが、これらのタスクは空間推論の最も基本的なレベルに過ぎない。本研究では、認知心理学に基づいた、空間推論のための包括的で挑戦的なベンチマークであるOmniSpatialを紹介する。OmniSpatialは、動的推論、複雑な空間論理、空間的相互作用、遠近法の4つの主要カテゴリをカバーし、50の細かいサブカテゴリを持つ。インターネットデータのクローリングと入念な手作業によるアノテーションを通じて、1.5K以上の質問と答えのペアを構築している。広範な実験により、オープンソースとクローズドソースの両方のVLM、および既存の推論と空間理解モデルが、包括的な空間理解において重大な制限を示すことが示された。さらに、失敗事例を分析し、今後の研究の方向性を提案する。

要約(オリジナル)

Spatial reasoning is a key aspect of cognitive psychology and remains a major bottleneck for current vision-language models (VLMs). While extensive research has aimed to evaluate or improve VLMs’ understanding of basic spatial relations, such as distinguishing left from right, near from far, and object counting, these tasks represent only the most fundamental level of spatial reasoning. In this work, we introduce OmniSpatial, a comprehensive and challenging benchmark for spatial reasoning, grounded in cognitive psychology. OmniSpatial covers four major categories: dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking, with 50 fine-grained subcategories. Through Internet data crawling and careful manual annotation, we construct over 1.5K question-answer pairs. Extensive experiments show that both open- and closed-source VLMs, as well as existing reasoning and spatial understanding models, exhibit significant limitations in comprehensive spatial understanding. We further analyze failure cases and propose potential directions for future research.

arxiv情報

著者 Mengdi Jia,Zekun Qi,Shaochen Zhang,Wenyao Zhang,Xinqiang Yu,Jiawei He,He Wang,Li Yi
発行日 2025-06-03 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models はコメントを受け付けていません

SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

要約

ラージ・ランゲージ・モデル(LLM)とマルチモーダルLLMはSVG処理に有望な能力を示しているが、既存のベンチマークは実世界の限られたカバレッジ、複雑さの階層化の欠如、断片的な評価パラダイムに悩まされている。我々はSVGeniusを紹介する。SVGeniusは、理解、編集、生成の3つの段階にわたる2,377のクエリからなる包括的なベンチマークである。SVGeniusは、体系的な複雑度階層化を持つ24のアプリケーションドメインからの実世界のデータを基に構築され、8つのタスクカテゴリと18のメトリクスを通してモデルを評価する。異なるスケール、アーキテクチャ、トレーニングパラダイム、アクセシビリティレベルにまたがる22の主流モデルを評価した。我々の分析により、プロプライエタリなモデルがオープンソースの対応するモデルを大幅に上回る一方で、全てのモデルが複雑さの増加に伴い系統的な性能劣化を示し、現在のアプローチの根本的な限界を示すことが明らかになった。SVGeniusは、SVG処理のための最初の体系的な評価フレームワークを確立し、より高性能なベクターグラフィックスモデルを開発し、自動グラフィックデザインアプリケーションを進歩させるための重要な洞察を提供する。付録と補足資料(すべてのデータとコードを含む)は、https://zju-real.github.io/SVGenius。

要約(オリジナル)

Large Language Models (LLMs) and Multimodal LLMs have shown promising capabilities for SVG processing, yet existing benchmarks suffer from limited real-world coverage, lack of complexity stratification, and fragmented evaluation paradigms. We introduce SVGenius, a comprehensive benchmark comprising 2,377 queries across three progressive dimensions: understanding, editing, and generation. Built on real-world data from 24 application domains with systematic complexity stratification, SVGenius evaluates models through 8 task categories and 18 metrics. We assess 22 mainstream models spanning different scales, architectures, training paradigms, and accessibility levels. Our analysis reveals that while proprietary models significantly outperform open-source counterparts, all models exhibit systematic performance degradation with increasing complexity, indicating fundamental limitations in current approaches; however, reasoning-enhanced training proves more effective than pure scaling for overcoming these limitations, though style transfer remains the most challenging capability across all model types. SVGenius establishes the first systematic evaluation framework for SVG processing, providing crucial insights for developing more capable vector graphics models and advancing automated graphic design applications. Appendix and supplementary materials (including all data and code) are available at https://zju-real.github.io/SVGenius.

arxiv情報

著者 Siqi Chen,Xinyu Dong,Haolei Xu,Xingyu Wu,Fei Tang,Hang Zhang,Yuchen Yan,Linjuan Wu,Wenqi Zhang,Guiyang Hou,Yongliang Shen,Weiming Lu,Yueting Zhuang
発行日 2025-06-03 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation はコメントを受け付けていません

CamCloneMaster: Enabling Reference-based Camera Control for Video Generation

要約

表現力豊かで映画的な映像を生成するためには、カメラの制御が重要である。既存の手法は、制御条件として明示的なカメラパラメータのシーケンスに依存しており、特に複雑なカメラの動きに対して、ユーザが構築するのが面倒な場合がある。より直感的なカメラ制御方法を提供するために、カメラパラメータやテスト時間の微調整を必要とせずに、参照動画からカメラの動きを再現できるフレームワーク、CamCloneMasterを提案します。CamCloneMasterは、統一されたフレームワークの中で、Image-to-VideoタスクとVideo-to-Videoタスクの両方の参照ベースのカメラ制御をシームレスにサポートします。さらに、カメラクローン学習用に設計された、多様なシーン、被写体、カメラの動きを含む大規模な合成データセットであるカメラクローンデータセットを紹介します。広範な実験とユーザースタディにより、CamCloneMasterがカメラの制御性と視覚的品質の両面で既存の手法を凌駕することを実証する。

要約(オリジナル)

Camera control is crucial for generating expressive and cinematic videos. Existing methods rely on explicit sequences of camera parameters as control conditions, which can be cumbersome for users to construct, particularly for intricate camera movements. To provide a more intuitive camera control method, we propose CamCloneMaster, a framework that enables users to replicate camera movements from reference videos without requiring camera parameters or test-time fine-tuning. CamCloneMaster seamlessly supports reference-based camera control for both Image-to-Video and Video-to-Video tasks within a unified framework. Furthermore, we present the Camera Clone Dataset, a large-scale synthetic dataset designed for camera clone learning, encompassing diverse scenes, subjects, and camera movements. Extensive experiments and user studies demonstrate that CamCloneMaster outperforms existing methods in terms of both camera controllability and visual quality.

arxiv情報

著者 Yawen Luo,Jianhong Bai,Xiaoyu Shi,Menghan Xia,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Tianfan Xue
発行日 2025-06-03 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | CamCloneMaster: Enabling Reference-based Camera Control for Video Generation はコメントを受け付けていません

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

要約

近年のインタラクティブビデオ生成の進歩は有望な結果を示しているが、既存のアプローチは、履歴コンテキストの利用が限られているため、長時間のビデオ生成におけるシーンコンシステントメモリ機能に苦戦している。本研究では、動画生成のためのメモリとして過去のコンテキストを利用するContext-as-Memoryを提案する。(1)追加の後処理なしにコンテキストをフレーム形式で保存する。(2)入力時にフレーム次元に沿って予測されるコンテキストとフレームを連結することで条件付けを行い、外部制御モジュールを必要としない。さらに、すべての履歴コンテキストを取り込む膨大な計算オーバーヘッドを考慮し、カメラポーズ間のFOV(Field of View)オーバーラップを決定することにより、真に関連するコンテキストフレームを選択する記憶検索モジュールを提案し、実質的な情報損失なしに候補フレーム数を大幅に削減する。実験により、Context-as-Memoryは、SOTAと比較して、インタラクティブな長時間のビデオ生成において優れた記憶能力を達成し、トレーニング中に見られなかったオープンドメインのシナリオにも効果的に汎化することが実証された。私たちのプロジェクトページのリンクはhttps://context-as-memory.github.io/。

要約(オリジナル)

Recent advances in interactive video generation have shown promising results, yet existing approaches struggle with scene-consistent memory capabilities in long video generation due to limited use of historical context. In this work, we propose Context-as-Memory, which utilizes historical context as memory for video generation. It includes two simple yet effective designs: (1) storing context in frame format without additional post-processing; (2) conditioning by concatenating context and frames to be predicted along the frame dimension at the input, requiring no external control modules. Furthermore, considering the enormous computational overhead of incorporating all historical context, we propose the Memory Retrieval module to select truly relevant context frames by determining FOV (Field of View) overlap between camera poses, which significantly reduces the number of candidate frames without substantial information loss. Experiments demonstrate that Context-as-Memory achieves superior memory capabilities in interactive long video generation compared to SOTAs, even generalizing effectively to open-domain scenarios not seen during training. The link of our project page is https://context-as-memory.github.io/.

arxiv情報

著者 Jiwen Yu,Jianhong Bai,Yiran Qin,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Xihui Liu
発行日 2025-06-03 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval はコメントを受け付けていません