Tiled Diffusion

要約

画像タイル – 一貫した視野を作成するための異なる画像のシームレスな接続 – は、テクスチャ作成、ビデオゲーム資産開発、デジタルアートなどのアプリケーションにとって重要です。
伝統的に、タイルは手動で構築されてきました。これは、スケーラビリティと柔軟性に大きな制限をもたらす方法です。
最近の研究では、生成モデルを使用してこのプロセスを自動化しようとしました。
ただし、現在のアプローチは、主に、多様なドメイン全体で複数の相互接続されたタイルの作成をサポートすることなく、単一イメージ生成のためのテクスチャのタイルと操作モデルに焦点を当てています。
このホワイトペーパーでは、タイル張りの拡散モデルの能力を拡張して、タイルを必要とする画像合成のさまざまなドメインにわたってまとまりのあるタイルパターンの生成に対応する新しいアプローチであるタイル張りの拡散を示します。
この方法は、セルフタイルから複雑な多くの接続まで、複数の画像のシームレスな統合を可能にする幅広いタイリングシナリオをサポートしています。
タイル張りの拡散は、タイルプロセスを自動化し、手動介入の必要性を排除し、既存の画像のシームレスにタイル張り、タイル張りのテクスチャ作成、360 $^\ circ $合成など、さまざまなアプリケーションで創造的な可能性を高めます。

要約(オリジナル)

Image tiling — the seamless connection of disparate images to create a coherent visual field — is crucial for applications such as texture creation, video game asset development, and digital art. Traditionally, tiles have been constructed manually, a method that poses significant limitations in scalability and flexibility. Recent research has attempted to automate this process using generative models. However, current approaches primarily focus on tiling textures and manipulating models for single-image generation, without inherently supporting the creation of multiple interconnected tiles across diverse domains. This paper presents Tiled Diffusion, a novel approach that extends the capabilities of diffusion models to accommodate the generation of cohesive tiling patterns across various domains of image synthesis that require tiling. Our method supports a wide range of tiling scenarios, from self-tiling to complex many-to-many connections, enabling seamless integration of multiple images. Tiled Diffusion automates the tiling process, eliminating the need for manual intervention and enhancing creative possibilities in various applications, such as seamlessly tiling of existing images, tiled texture creation, and 360$^\circ$ synthesis.

arxiv情報

著者 Or Madar,Ohad Fried
発行日 2025-03-13 17:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tiled Diffusion はコメントを受け付けていません

Learning Interpretable Logic Rules from Deep Vision Models

要約

VisionLogicと呼ばれる一般的なフレームワークを提案して、画像分類タスクに焦点を当てて、Deep Visionモデルから解釈可能なロジックルールを抽出します。
完全に接続されたレイヤーを出力ヘッドとして使用するディープビジョンモデルを考えると、VisionLogicは最後のレイヤーのニューロンを述語に変換し、それらを因果検証を使用して視力概念に根拠にします。
このようにして、VisionLogicは、ロジックルールの形式での単一画像の局所的な説明と特定のクラスのグローバルな説明を提供できます。
顕著性マップなどの既存の解釈可能な視覚化ツールと比較して、VisionLogicは、因果的説明の欠如、視覚化の過度の影響、解釈の曖昧さなど、いくつかの重要な課題に対処します。
VisionLogicは、述語によってエンコードされた視覚概念の研究、特に摂動の下でどのように振る舞うか、つまり隠されたセマンティクスの分野で露出していない領域の研究も促進します。
モデルによって学んだ視覚的概念に対するより良い視覚的説明と洞察を提供することとは別に、VisionLogicが解釈可能かつ透明な方法でニューラルネットワークの識別力のほとんどを保持していることを示します。
複雑なモデルの行動と人間に理解しやすい説明との橋渡しとして、実際のアプリケーションに信頼できる実用的な洞察を提供します。

要約(オリジナル)

We propose a general framework called VisionLogic to extract interpretable logic rules from deep vision models, with a focus on image classification tasks. Given any deep vision model that uses a fully connected layer as the output head, VisionLogic transforms neurons in the last layer into predicates and grounds them into vision concepts using causal validation. In this way, VisionLogic can provide local explanations for single images and global explanations for specific classes in the form of logic rules. Compared to existing interpretable visualization tools such as saliency maps, VisionLogic addresses several key challenges, including the lack of causal explanations, overconfidence in visualizations, and ambiguity in interpretation. VisionLogic also facilitates the study of visual concepts encoded by predicates, particularly how they behave under perturbation — an area that remains underexplored in the field of hidden semantics. Apart from providing better visual explanations and insights into the visual concepts learned by the model, we show that VisionLogic retains most of the neural network’s discriminative power in an interpretable and transparent manner. We envision it as a bridge between complex model behavior and human-understandable explanations, providing trustworthy and actionable insights for real-world applications.

arxiv情報

著者 Chuqin Geng,Yuhe Jiang,Ziyu Zhao,Haolin Ye,Zhaoyue Wang,Xujie Si
発行日 2025-03-13 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Interpretable Logic Rules from Deep Vision Models はコメントを受け付けていません

MASQUE: A Text-Guided Diffusion-Based Framework for Localized and Customized Adversarial Makeup

要約

政府および商業サービスに顔認識がますます採用されるにつれて、その誤用の可能性は、プライバシーと公民権に関する深刻な懸念を引き起こしました。
反論するために、敵対的なメイクアップベースのアプローチが最も人気のある顔の画像を敵対的に摂動することにより、プライバシー保護のために、さまざまな反顔面認識技術が提案されています。
ただし、主に特定のターゲットアイデンティティになりすますように設計されたこれらの方法は、ターゲットを絞った虐待のリスクを高めながら、弱い避難成功率を達成することしかできません。
さらに、彼らはしばしば、多様なメイクアッププロンプトに対応するためのグローバルな視覚的アーティファクトまたは適応性の欠如を導入し、ユーザーの満足度を損なう。
上記の制限に対処するために、ユーザー定義のテキストプロンプトに導かれたローカライズされた敵対的なメイクを生成する新しい拡散ベースのフレームワークであるマスクを開発します。
正確なヌルテキストの反転、マスキングによるカスタマイズされた交差融合融合、および同じ個人の画像を使用したペアワイズ敵対的なガイダンスメカニズムに基づいて構築されたマスクは、外部のアイデンティティを必要とせずに堅牢な避けパフォーマンスを実現します。
オープンソースの顔認識モデルと市販のAPIに関する包括的な評価は、マスクがすべてのベースラインで成功率を大幅に改善することを示しています。

要約(オリジナル)

As facial recognition is increasingly adopted for government and commercial services, its potential misuse has raised serious concerns about privacy and civil rights. To counteract, various anti-facial recognition techniques have been proposed for privacy protection by adversarially perturbing face images, among which generative makeup-based approaches are the most popular. However, these methods, designed primarily to impersonate specific target identities, can only achieve weak dodging success rates while increasing the risk of targeted abuse. In addition, they often introduce global visual artifacts or a lack of adaptability to accommodate diverse makeup prompts, compromising user satisfaction. To address the above limitations, we develop MASQUE, a novel diffusion-based framework that generates localized adversarial makeups guided by user-defined text prompts. Built upon precise null-text inversion, customized cross-attention fusion with masking, and a pairwise adversarial guidance mechanism using images of the same individual, MASQUE achieves robust dodging performance without requiring any external identity. Comprehensive evaluations on open-source facial recognition models and commercial APIs demonstrate that MASQUE significantly improves dodging success rates over all baselines, along with higher perceptual fidelity and stronger adaptability to various text makeup prompts.

arxiv情報

著者 Youngjin Kwon,Xiao Zhang
発行日 2025-03-13 17:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | MASQUE: A Text-Guided Diffusion-Based Framework for Localized and Customized Adversarial Makeup はコメントを受け付けていません

Autoregressive Image Generation with Randomized Parallel Decoding

要約

ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルであるARPGを導入し、従来のラスターオーダーアプローチの固有の制限に対処します。
私たちの重要な洞察は、効果的なランダムオーダーモデリングには、次の予測トークンの位置を決定するための明示的なガイダンスが必要であることです。
この目的のために、ポジショニングガイダンスをコンテンツ表現から切り離す新しいガイド付きデコードフレームワークを提案し、クエリとキー価値のペアとして個別にエンコードします。
このガイダンスを因果注意メカニズムに直接組み込むことにより、私たちのアプローチにより、完全にランダムな注文トレーニングと生成が可能になり、双方向の注意の必要性が排除されます。
その結果、ARPGは、画像の開始、中断、解像度の拡張などのゼロショットタスクに容易に一般化します。
さらに、共有KVキャッシュを使用して複数のクエリを同時に処理することにより、並列推論をサポートします。
ImagENET-1K 256ベンチマークでは、私たちのアプローチは1.94のFIDを達成し、サンプリングステップはわずか64のサンプリングステップで、スループットが20倍に増加し、同様のスケールでの代表的な最近の自己回帰モデルと比較してメモリ消費量を75%以上削減します。

要約(オリジナル)

We introduce ARPG, a novel visual autoregressive model that enables randomized parallel generation, addressing the inherent limitations of conventional raster-order approaches, which hinder inference efficiency and zero-shot generalization due to their sequential, predefined token generation order. Our key insight is that effective random-order modeling necessitates explicit guidance for determining the position of the next predicted token. To this end, we propose a novel guided decoding framework that decouples positional guidance from content representation, encoding them separately as queries and key-value pairs. By directly incorporating this guidance into the causal attention mechanism, our approach enables fully random-order training and generation, eliminating the need for bidirectional attention. Consequently, ARPG readily generalizes to zero-shot tasks such as image inpainting, outpainting, and resolution expansion. Furthermore, it supports parallel inference by concurrently processing multiple queries using a shared KV cache. On the ImageNet-1K 256 benchmark, our approach attains an FID of 1.94 with only 64 sampling steps, achieving over a 20-fold increase in throughput while reducing memory consumption by over 75% compared to representative recent autoregressive models at a similar scale.

arxiv情報

著者 Haopeng Li,Jinyue Yang,Guoqi Li,Huan Wang
発行日 2025-03-13 17:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Autoregressive Image Generation with Randomized Parallel Decoding はコメントを受け付けていません

Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection

要約

LIDARベースの3Dオブジェクト検出は、ライダーポイントの固有のスパース性のために大きな課題を提示します。
一般的なソリューションには、入力を高めるための長期的な時間LIDARデータが含まれます。
ただし、空間的情報を効率的に活用することで、未解決の問題のままです。
このホワイトペーパーでは、新しいセマンティックスズメバチの空間的融合(STフュージョン)メソッドを提案します。これは、オブジェクトの動きによって引き起こされる空間的不整合を緩和する新しい融合モジュールを導入し、提案された融合モジュールの容量を十分にロック解除するための特徴レベルのセマンティック監督を緩和します。
具体的には、ST融合は、空間凝集(SA)モジュールと時間的マージ(TM)モジュールで構成されています。
SAモジュールは、徐々に拡張された受容フィールドを備えた畳み込み層を使用して、ローカル領域のオブジェクト機能を集計して空間的不整列を緩和し、TMモジュールは、包括的なシーケンシャルなプレゼンテーションの注意メカニズムに基づいて前述のフレームからオブジェクト機能を動的に抽出します。
その上、セマンティック監督では、ポイントごとのセマンティックラベルを注入し、教師モデルをトレーニングするために使用し、提案されたオブジェクト対応損失によって監督された機能レベルで再構成ターゲットを提供するために、スパースライダーデータを豊かにするセマンティックインジェクション方法を提案します。
さまざまなLIDARベースの検出器に関する広範な実験は、私たちの提案の有効性と普遍性を示し、ヌスケンベンチマークに基づいてNDSで約2.8%の改善をもたらします。

要約(オリジナル)

LiDAR-based 3D object detection presents significant challenges due to the inherent sparsity of LiDAR points. A common solution involves long-term temporal LiDAR data to densify the inputs. However, efficiently leveraging spatial-temporal information remains an open problem. In this paper, we propose a novel Semantic-Supervised Spatial-Temporal Fusion (ST-Fusion) method, which introduces a novel fusion module to relieve the spatial misalignment caused by the object motion over time and a feature-level semantic supervision to sufficiently unlock the capacity of the proposed fusion module. Specifically, the ST-Fusion consists of a Spatial Aggregation (SA) module and a Temporal Merging (TM) module. The SA module employs a convolutional layer with progressively expanding receptive fields to aggregate the object features from the local regions to alleviate the spatial misalignment, the TM module dynamically extracts object features from the preceding frames based on the attention mechanism for a comprehensive sequential presentation. Besides, in the semantic supervision, we propose a Semantic Injection method to enrich the sparse LiDAR data via injecting the point-wise semantic labels, using it for training a teacher model and providing a reconstruction target at the feature level supervised by the proposed object-aware loss. Extensive experiments on various LiDAR-based detectors demonstrate the effectiveness and universality of our proposal, yielding an improvement of approximately +2.8% in NDS based on the nuScenes benchmark.

arxiv情報

著者 Chaoqun Wang,Xiaobin Hong,Wenzhong Li,Ruimao Zhang
発行日 2025-03-13 17:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection はコメントを受け付けていません

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

要約

ビジョン言語モデルは、多くの知覚に焦点を当てたタスクで大きな進歩を遂げていますが、高品質で多様なトレーニングデータがないため、推論に焦点を当てたタスクに関する進歩は制限されているようです。
この作業では、推論に焦点を当てたマルチモーダルデータセットの希少性の問題に対処することを目指しています。
VisualWebintruct-検索エンジンを活用して、数学、物理学、金融、化学などなどの複数の分野にまたがる多様で高品質のデータセットを作成する新しいアプローチを提案します。
700Kを超える一意のURLソースからHTMLを収集および処理します。
コンテンツ抽出、フィルタリング、合成のパイプラインを通じて、約900kの質問回答ペアのデータセットを構築し、40%が視覚QAペア、残りはテキストQAペアとして構成されています。
VisualWebinstructで微調整されたモデルは、大幅なパフォーマンスの向上を示しています。(1)Llava-ov-MIDからのトレーニングは、ベンチマーク全体で10〜20%の絶対ポイントゲインを示しています。
私たちの最高のモデルMammoth-VL2は、MMMU-Pro-STD(40.7%)、Mathverse(42.6%)、およびDynamath(55.7%)の10Bパラメータークラス内で最先端のパフォーマンスを示しています。
これらの顕著な結果は、複雑なマルチモーダルタスクのVLMSの推論機能を強化する際のデータセットの有効性を強調しています。

要約(オリジナル)

Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct – a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs’ reasoning capabilities for complex multimodal tasks.

arxiv情報

著者 Yiming Jia,Jiachen Li,Xiang Yue,Bo Li,Ping Nie,Kai Zou,Wenhu Chen
発行日 2025-03-13 17:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search はコメントを受け付けていません

Unlock the Power of Unlabeled Data in Language Driving Model

要約

自律運転の最近のビジョンベースの大手言語モデル〜(Visionllms)は、急速な進歩を見てきました。
ただし、このような昇進は、コストがかかり、労働集約的な大規模な高品質の注釈付きデータに非常に依存しています。
この問題に対処するために、半監督の学習方法で言語駆動モデルを改善するために、豊富でありながら非標識データの価値を解き放つことを提案します。
具体的には、最初に一連のテンプレートベースのプロンプトを導入してシーン情報を抽出し、限られたラベル付きデータで訓練されたモデルに基づいて、無効なデータの擬似回答を作成する質問を生成します。
次に、これらの擬似解決の品質を改善するための自己整合性改良方法を提案します。これらは後でさらなるトレーニングに使用されます。
事前に訓練されたVisionllm(例:InternVL)を利用することにより、以前の最先端の方法を上回るシーンを運転するための強力な言語駆動モデル(LDM)を構築します。
Drivelmベンチマークでの広範な実験は、私たちのアプローチがわずか5%のラベルデータでうまく機能し、完全なデータセットでトレーニングされたモデルに対して競争力のあるパフォーマンスを達成することを示しています。
特に、LDMは、ラベル付きデータが限られている44.85%のパフォーマンスを達成し、非標識データを使用すると54.27%に増加し、完全なデータセットでトレーニングされたモデルはDrivelmベンチマークで60.68%に達します。

要約(オリジナル)

Recent Vision-based Large Language Models~(VisionLLMs) for autonomous driving have seen rapid advancements. However, such promotion is extremely dependent on large-scale high-quality annotated data, which is costly and labor-intensive. To address this issue, we propose unlocking the value of abundant yet unlabeled data to improve the language-driving model in a semi-supervised learning manner. Specifically, we first introduce a series of template-based prompts to extract scene information, generating questions that create pseudo-answers for the unlabeled data based on a model trained with limited labeled data. Next, we propose a Self-Consistency Refinement method to improve the quality of these pseudo-annotations, which are later used for further training. By utilizing a pre-trained VisionLLM (e.g., InternVL), we build a strong Language Driving Model (LDM) for driving scene question-answering, outperforming previous state-of-the-art methods. Extensive experiments on the DriveLM benchmark show that our approach performs well with just 5% labeled data, achieving competitive performance against models trained with full datasets. In particular, our LDM achieves 44.85% performance with limited labeled data, increasing to 54.27% when using unlabeled data, while models trained with full datasets reach 60.68% on the DriveLM benchmark.

arxiv情報

著者 Chaoqun Wang,Jie Yang,Xiaobin Hong,Ruimao Zhang
発行日 2025-03-13 17:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unlock the Power of Unlabeled Data in Language Driving Model はコメントを受け付けていません

Complexity Experts are Task-Discriminative Learners for Any Image Restoration

要約

オールインワン画像修復モデルの最近の進歩により、統一されたフレームワークを通じて多様な分解に対処する能力に革命をもたらしました。
ただし、特定のタスクに結び付けられたパラメーターは、他のタスクに対して非アクティブなままであり、エンサリ(MOE)の混合物を自然な拡張機能にします。
それにもかかわらず、Moesはしばしば一貫性のない行動を示し、一部の専門家は予期せずタスクを一般的に一般化しますが、他の専門家は意図した範囲内で苦労しています。
これは、推論中に無関係な専門家をバイパスすることにより、Moesの計算上の利点を活用することを妨げます。
この望ましくない行動は、伝統的なoesの均一で厳格なアーキテクチャに帰します。
これに対処するために、「複雑さの専門家」を紹介します。これは、さまざまな計算の複雑さと受容フィールドを備えた柔軟な専門家ブロックです。
劣化の複雑さは事前に不明であるため、重要な課題は各専門家にタスクを割り当てることです。
したがって、複雑さの低下に向けて単純なバイアスでタスクを実行します。
驚いたことに、この好みはタスク固有の割り当てを効果的に推進し、適切な複雑さで専門家にタスクを割り当てます。
広範な実験は、私たちのアプローチを検証し、優れたパフォーマンスを維持しながら、推論中に無関係な専門家をバイパスする能力を実証します。
提案されているMOCE-IRモデルは、最先端の方法よりも優れており、その効率と実用的な適用性を確認します。
ソースコードとモデルは、\ href {https://eduardzamfir.github.io/moceir/}で公開されています。

要約(オリジナル)

Recent advancements in all-in-one image restoration models have revolutionized the ability to address diverse degradations through a unified framework. However, parameters tied to specific tasks often remain inactive for other tasks, making mixture-of-experts (MoE) architectures a natural extension. Despite this, MoEs often show inconsistent behavior, with some experts unexpectedly generalizing across tasks while others struggle within their intended scope. This hinders leveraging MoEs’ computational benefits by bypassing irrelevant experts during inference. We attribute this undesired behavior to the uniform and rigid architecture of traditional MoEs. To address this, we introduce “complexity experts’ — flexible expert blocks with varying computational complexity and receptive fields. A key challenge is assigning tasks to each expert, as degradation complexity is unknown in advance. Thus, we execute tasks with a simple bias toward lower complexity. To our surprise, this preference effectively drives task-specific allocation, assigning tasks to experts with the appropriate complexity. Extensive experiments validate our approach, demonstrating the ability to bypass irrelevant experts during inference while maintaining superior performance. The proposed MoCE-IR model outperforms state-of-the-art methods, affirming its efficiency and practical applicability. The source code and models are publicly available at \href{https://eduardzamfir.github.io/moceir/}{\texttt{eduardzamfir.github.io/MoCE-IR/}}

arxiv情報

著者 Eduard Zamfir,Zongwei Wu,Nancy Mehta,Yuedong Tan,Danda Pani Paudel,Yulun Zhang,Radu Timofte
発行日 2025-03-13 17:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Complexity Experts are Task-Discriminative Learners for Any Image Restoration はコメントを受け付けていません

Long Context Tuning for Video Generation

要約

ビデオ生成における最近の進歩は、スケーラブルな拡散トランスを備えた現実的で微妙なシングルショットビデオを生成する可能性があります。
ただし、実際の物語ビデオでは、ショット全体で視覚的および動的な一貫性を備えたマルチショットシーンが必要です。
この作業では、データから直接シーンレベルの一貫性を学習するために、事前に訓練されたシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張するトレーニングパラダイムである長いコンテキストチューニング(LCT)を導入します。
私たちの方法は、個々のショットからの完全な注意メカニズムを拡大して、シーン内のすべてのショットを包含し、インターリーブ3D位置の埋め込みと非同期ノイズ戦略を組み込み、追加のパラメーターなしでジョイントとオート再生ショットの両方の生成を可能にします。
LCT後の双方向の注意を払ったモデルは、コンテキストと因果関係の注意でさらに微調整され、効率的なKVキャッシュで自動回帰生成を促進することができます。
実験は、LCTがコヒーレントなマルチショットシーンを生成し、構成生成やインタラクティブなショットエクステンションを含む新たな機能を展示し、より実用的な視覚的コンテンツの作成への道を開くと、シングルショットモデルを実証します。
詳細については、https://guoyww.github.io/projects/long-context-video/を参照してください。

要約(オリジナル)

Recent advances in video generation can produce realistic, minute-long single-shot videos with scalable diffusion transformers. However, real-world narrative videos require multi-shot scenes with visual and dynamic consistency across shots. In this work, we introduce Long Context Tuning (LCT), a training paradigm that expands the context window of pre-trained single-shot video diffusion models to learn scene-level consistency directly from data. Our method expands full attention mechanisms from individual shots to encompass all shots within a scene, incorporating interleaved 3D position embedding and an asynchronous noise strategy, enabling both joint and auto-regressive shot generation without additional parameters. Models with bidirectional attention after LCT can further be fine-tuned with context-causal attention, facilitating auto-regressive generation with efficient KV-cache. Experiments demonstrate single-shot models after LCT can produce coherent multi-shot scenes and exhibit emerging capabilities, including compositional generation and interactive shot extension, paving the way for more practical visual content creation. See https://guoyww.github.io/projects/long-context-video/ for more details.

arxiv情報

著者 Yuwei Guo,Ceyuan Yang,Ziyan Yang,Zhibei Ma,Zhijie Lin,Zhenheng Yang,Dahua Lin,Lu Jiang
発行日 2025-03-13 17:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long Context Tuning for Video Generation はコメントを受け付けていません

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

要約

このペーパーでは、Cameractrl IIを紹介します。これは、カメラ制御されたビデオ拡散モデルを通じて大規模な動的シーン探索を可能にするフレームワークです。
以前のカメラで調整されたビデオ生成モデルは、大きなカメラの動きを備えたビデオを生成する際に、ビデオダイナミクスの減少と視点の限られた範囲に悩まされています。
ダイナミックシーンの生成を徐々に拡張するアプローチを採用します。最初に個々のビデオクリップ内で動的コンテンツを強化し、次にこの機能を拡張して、幅広い視点範囲にわたってシームレスな探索を作成します。
具体的には、トレーニング用のカメラパラメーターアノテーションを備えた大量のダイナミクスを特徴とするデータセットを構築し、軽量カメラインジェクションモジュールとトレーニングスキームを設計して、前処理されたモデルのダイナミクスを維持します。
これらの改善されたシングルクリップテクニックに基づいて、コヒーレントビデオシーケンスを生成するためのカメラ軌道をユーザーが反復的に指定できるようにすることにより、拡張シーン探索を可能にします。
多様なシナリオ全体の実験は、Cameractrl IIが以前のアプローチよりも大幅に広い空間探索を備えたカメラ制御の動的シーン合成を可能にすることを示しています。

要約(オリジナル)

This paper introduces CameraCtrl II, a framework that enables large-scale dynamic scene exploration through a camera-controlled video diffusion model. Previous camera-conditioned video generative models suffer from diminished video dynamics and limited range of viewpoints when generating videos with large camera movement. We take an approach that progressively expands the generation of dynamic scenes — first enhancing dynamic content within individual video clip, then extending this capability to create seamless explorations across broad viewpoint ranges. Specifically, we construct a dataset featuring a large degree of dynamics with camera parameter annotations for training while designing a lightweight camera injection module and training scheme to preserve dynamics of the pretrained models. Building on these improved single-clip techniques, we enable extended scene exploration by allowing users to iteratively specify camera trajectories for generating coherent video sequences. Experiments across diverse scenarios demonstrate that CameraCtrl Ii enables camera-controlled dynamic scene synthesis with substantially wider spatial exploration than previous approaches.

arxiv情報

著者 Hao He,Ceyuan Yang,Shanchuan Lin,Yinghao Xu,Meng Wei,Liangke Gui,Qi Zhao,Gordon Wetzstein,Lu Jiang,Hongsheng Li
発行日 2025-03-13 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models はコメントを受け付けていません