MambaVision: A Hybrid Mamba-Transformer Vision Backbone

要約

視覚アプリケーションに合わせて特別に調整された、新しいハイブリッドマンバトランスフォーカーバックボーン、マンバビジョンを提案します。
私たちの中核的な貢献には、MAMBA製剤の再設計が含まれ、視覚的特徴の効率的なモデリングの能力を高めます。
包括的なアブレーション研究を通じて、視覚変圧器(VIT)をMAMBAと統合する可能性を実証します。
私たちの結果は、最終層にMambaアーキテクチャを自己触媒ブロックに装備することで、長距離の空間依存関係をキャプチャする能力が大幅に向上することを示しています。
これらの調査結果に基づいて、さまざまな設計基準を満たすために、階層アーキテクチャを備えたマンバヴィジョンモデルのファミリーを紹介します。
ImagENET-1Kデータセットの分類では、Mambavisionバリエーションは、TOP-1の精度とスループットの両方の点で最先端(SOTA)パフォーマンスを実現します。
MS COCOおよびADE20Kデータセットのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどのダウンストリームタスクでは、Mambavisionは、好ましいパフォーマンスを示しながら、比較的サイズのバックボーンを上回ります。
コード:https://github.com/nvlabs/mambavision

要約(オリジナル)

We propose a novel hybrid Mamba-Transformer backbone, MambaVision, specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. Through a comprehensive ablation study, we demonstrate the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results show that equipping the Mamba architecture with self-attention blocks in the final layers greatly improves its capacity to capture long-range spatial dependencies. Based on these findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For classification on the ImageNet-1K dataset, MambaVision variants achieve state-of-the-art (SOTA) performance in terms of both Top-1 accuracy and throughput. In downstream tasks such as object detection, instance segmentation, and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably sized backbones while demonstrating favorable performance. Code: https://github.com/NVlabs/MambaVision

arxiv情報

著者 Ali Hatamizadeh,Jan Kautz
発行日 2025-03-25 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MambaVision: A Hybrid Mamba-Transformer Vision Backbone はコメントを受け付けていません

Scaling Down Text Encoders of Text-to-Image Diffusion Models

要約

拡散モデルのテキストエンコーダーは急速に進化し、クリップからT5-XXLに移行しています。
この進化により、モデルの複雑なプロンプトを理解してテキストを生成する能力が大幅に向上しましたが、パラメーターの数の大幅な増加にもつながります。
T5シリーズエンコーダーは、かなりの量の非視覚データを含むC4 Natural Language Corpusでトレーニングされているにもかかわらず、T5エンコーダーを備えた拡散モデルは、表現力の冗長性を示す非視覚プロンプトに応答しません。
したがって、それは重要な質問を提起します:「私たちは本当にこのような大きなテキストエンコーダーが必要ですか?」
答えを追求するために、視力ベースの知識蒸留を採用して、一連のT5エンコーダーモデルを訓練します。
その機能を完全に継承するために、画質、セマンティック理解、テキストレンダリングの3つの基準に基づいてデータセットを構築しました。
我々の結果は、蒸留されたT5ベースモデルがT5-XXLによって生成されたものと同等の品質の画像を生成しながら、サイズが50倍小さくなっているというスケーリングダウンパターンを示しています。
このモデルサイズの縮小は、フラックスやSD3などの最先端モデルを実行するためのGPU要件を大幅に低下させるため、高品質のテキストからイメージへの生成がよりアクセスしやすくなります。

要約(オリジナル)

Text encoders in diffusion models have rapidly evolved, transitioning from CLIP to T5-XXL. Although this evolution has significantly enhanced the models’ ability to understand complex prompts and generate text, it also leads to a substantial increase in the number of parameters. Despite T5 series encoders being trained on the C4 natural language corpus, which includes a significant amount of non-visual data, diffusion models with T5 encoder do not respond to those non-visual prompts, indicating redundancy in representational power. Therefore, it raises an important question: ‘Do we really need such a large text encoder?’ In pursuit of an answer, we employ vision-based knowledge distillation to train a series of T5 encoder models. To fully inherit its capabilities, we constructed our dataset based on three criteria: image quality, semantic understanding, and text-rendering. Our results demonstrate the scaling down pattern that the distilled T5-base model can generate images of comparable quality to those produced by T5-XXL, while being 50 times smaller in size. This reduction in model size significantly lowers the GPU requirements for running state-of-the-art models such as FLUX and SD3, making high-quality text-to-image generation more accessible.

arxiv情報

著者 Lifu Wang,Daqing Liu,Xinchen Liu,Xiaodong He
発行日 2025-03-25 17:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Down Text Encoders of Text-to-Image Diffusion Models はコメントを受け付けていません

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning

要約

大規模なビジョン言語モデル(LVLMS)の急速な進歩により、マルチモーダルタスクの大幅な進歩が促進され、視覚ドメインとテキストドメインの両方で出力を解釈、推論、生成できるようになりました。
生成タスクで優れている間、既存のLVLMは、検索用の画像やテキストの埋め込みを生成するなど、高忠実度表現学習を必要とするタスクの制限に直面することがよくあります。
最近の研究では、表現学習のためのFinetuning LVLMSが提案されていますが、微調整されたモデルは、代表的な学習トレーニングパラダイムのために生成能力を失うことがよくあります。
このトレードオフに対処するために、表現タスクと生成タスクの両方のLVLMSを強化する対照的な自動微細な微調整フレームワークであるCafeを紹介します。
対照的な目的を自動脱着言語モデリングと統合することにより、私たちのアプローチは、これらの伝統的に個別のタスクを統合し、オブジェクト幻覚(OH)緩和を含むマルチモーダル検索とマルチモーダル生成ベンチマークの両方で最先端の結果を達成します。
Cafeは、単一のモデルに埋め込み機能と生成機能を相乗する新しいフレームワークを確立し、検索精度とコヒーレント出力生成の両方で優れた将来のマルチモーダルモデルの基礎を設定します。

要約(オリジナル)

The rapid advancement of large vision-language models (LVLMs) has driven significant progress in multimodal tasks, enabling models to interpret, reason, and generate outputs across both visual and textual domains. While excelling in generative tasks, existing LVLMs often face limitations in tasks requiring high-fidelity representation learning, such as generating image or text embeddings for retrieval. Recent work has proposed finetuning LVLMs for representational learning, but the fine-tuned model often loses its generative capabilities due to the representational learning training paradigm. To address this trade-off, we introduce CAFe, a contrastive-autoregressive fine-tuning framework that enhances LVLMs for both representation and generative tasks. By integrating a contrastive objective with autoregressive language modeling, our approach unifies these traditionally separate tasks, achieving state-of-the-art results in both multimodal retrieval and multimodal generative benchmarks, including object hallucination (OH) mitigation. CAFe establishes a novel framework that synergizes embedding and generative functionalities in a single model, setting a foundation for future multimodal models that excel in both retrieval precision and coherent output generation.

arxiv情報

著者 Hao Yu,Zhuokai Zhao,Shen Yan,Lukasz Korycki,Jianyu Wang,Baosheng He,Jiayi Liu,Lizhu Zhang,Xiangjun Fan,Hanchao Yu
発行日 2025-03-25 17:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning はコメントを受け付けていません

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

要約

多様で物理的にもっともらしいヒトシーン相互作用(HSI)の合成は、コンピューターアニメーションと具体化されたAIの両方にとって極めて重要です。
進歩を促進したにもかかわらず、現在の方法は主に個別のコントローラーの開発に焦点を当てており、それぞれが特定の相互作用タスクに特化しています。
これにより、複数のスキル、たとえばオブジェクトを運ぶ際に座ることを必要とするさまざまな挑戦的なHSIタスクに取り組む能力が大幅に妨げられます。
この問題に対処するために、マルチスキル統一と柔軟な適応が可能な単一の統一された変圧器ベースのポリシーであるTokenhsiを提示します。
重要な洞察は、ヒューマノイド固有受容を個別の共有トークンとしてモデル化し、マスキングメカニズムを介して個別のタスクトークンと結合することです。
このような統一されたポリシーにより、スキル全体で効果的な知識共有が可能になり、マルチタスクトレーニングが促進されます。
さらに、当社のポリシーアーキテクチャはさまざまな長さの入力をサポートし、学習スキルを新しいシナリオに柔軟に適応させることができます。
追加のタスクトークナーをトレーニングすることにより、相互作用ターゲットのジオメトリを変更するだけでなく、複数のスキルを調整して複雑なタスクに対処することもできます。
実験は、私たちのアプローチがさまざまなHSIタスクの汎用性、適応性、拡張性を大幅に改善できることを示しています。
ウェブサイト:https://liangpan99.github.io/tokenhsi/

要約(オリジナル)

Synthesizing diverse and physically plausible Human-Scene Interactions (HSI) is pivotal for both computer animation and embodied AI. Despite encouraging progress, current methods mainly focus on developing separate controllers, each specialized for a specific interaction task. This significantly hinders the ability to tackle a wide variety of challenging HSI tasks that require the integration of multiple skills, e.g., sitting down while carrying an object. To address this issue, we present TokenHSI, a single, unified transformer-based policy capable of multi-skill unification and flexible adaptation. The key insight is to model the humanoid proprioception as a separate shared token and combine it with distinct task tokens via a masking mechanism. Such a unified policy enables effective knowledge sharing across skills, thereby facilitating the multi-task training. Moreover, our policy architecture supports variable length inputs, enabling flexible adaptation of learned skills to new scenarios. By training additional task tokenizers, we can not only modify the geometries of interaction targets but also coordinate multiple skills to address complex tasks. The experiments demonstrate that our approach can significantly improve versatility, adaptability, and extensibility in various HSI tasks. Website: https://liangpan99.github.io/TokenHSI/

arxiv情報

著者 Liang Pan,Zeshi Yang,Zhiyang Dou,Wenjia Wang,Buzhen Huang,Bo Dai,Taku Komura,Jingbo Wang
発行日 2025-03-25 17:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization はコメントを受け付けていません

Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation

要約

ビデオフレーム補間は、観測されたフレーム間で現実的な欠落フレームを回復し、低フレームレートビデオから高フレームレートビデオを生成することを目的としています。
ただし、追加のガイダンスがなければ、フレーム間の大きな動きにより、この問題が不適切になります。
イベントベースのビデオフレーム補間(EVFI)は、モーションガイダンスとしてまばらで高度な分解イベント測定を使用することにより、この課題に対処します。
このガイダンスにより、EVFIメソッドはフレームのみのメソッドを大幅に上回ることができます。
ただし、これまで、EVFIメソッドは、ペアのイベントフレームトレーニングデータの限られたセットに依存しており、パフォーマンスと一般化機能を厳しく制限しています。
この作業では、インターネットスケールのデータセットでトレーニングされた事前に訓練されたビデオ拡散モデルをEVFIに適応させることにより、限られたデータチャレンジを克服します。
導入する新しいデータセットを含む、実際のEVFIデータセットに関するアプローチを実験的に検証します。
私たちの方法は、既存の方法を上回り、既存のアプローチよりもはるかにカメラ全体で一般化します。

要約(オリジナル)

Video Frame Interpolation aims to recover realistic missing frames between observed frames, generating a high-frame-rate video from a low-frame-rate video. However, without additional guidance, the large motion between frames makes this problem ill-posed. Event-based Video Frame Interpolation (EVFI) addresses this challenge by using sparse, high-temporal-resolution event measurements as motion guidance. This guidance allows EVFI methods to significantly outperform frame-only methods. However, to date, EVFI methods have relied on a limited set of paired event-frame training data, severely limiting their performance and generalization capabilities. In this work, we overcome the limited data challenge by adapting pre-trained video diffusion models trained on internet-scale datasets to EVFI. We experimentally validate our approach on real-world EVFI datasets, including a new one that we introduce. Our method outperforms existing methods and generalizes across cameras far better than existing approaches.

arxiv情報

著者 Jingxi Chen,Brandon Y. Feng,Haoming Cai,Tianfu Wang,Levi Burner,Dehao Yuan,Cornelia Fermuller,Christopher A. Metzler,Yiannis Aloimonos
発行日 2025-03-25 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation はコメントを受け付けていません

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

要約

視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習する際に、拡散ベースのテキストからイメージ(T2I)モデルなどの最新の生成モデルに大きな課題をもたらします。
既存の方法には、解釈可能な根本的な本質的な概念を確実に抽出する体系的な方法がありません。
この課題に対処するために、T2Iモデルのみを使用して単一の画像から固有の概念を自動的に体系的に抽出する新しいフレームワークである、本質的な概念抽出の略で氷を提示します。
氷は2つの重要な段階で構成されています。
最初の段階では、ICEは、関連するテキストベースの概念と画像内の対応するマスクを特定するために、自動概念ローカリゼーションモジュールを考案します。
この重要な段階は、概念の初期化を合理化し、その後の分析のための正確なガイダンスを提供します。
第2段階は、識別された各マスクをより深く掘り下げ、オブジェクトレベルの概念を内因性の概念と一般的な概念に分解します。
この分解により、視覚要素のより詳細で解釈可能な故障が可能になります。
私たちのフレームワークは、単一の画像からの本質的な概念抽出に関する優れたパフォーマンスを監視していない方法で示しています。
プロジェクトページ:https://visual-ai.github.io/ice

要約(オリジナル)

The inherent ambiguity in defining visual concepts poses significant challenges for modern generative models, such as the diffusion-based Text-to-Image (T2I) models, in accurately learning concepts from a single image. Existing methods lack a systematic way to reliably extract the interpretable underlying intrinsic concepts. To address this challenge, we present ICE, short for Intrinsic Concept Extraction, a novel framework that exclusively utilizes a T2I model to automatically and systematically extract intrinsic concepts from a single image. ICE consists of two pivotal stages. In the first stage, ICE devises an automatic concept localization module to pinpoint relevant text-based concepts and their corresponding masks within the image. This critical stage streamlines concept initialization and provides precise guidance for subsequent analysis. The second stage delves deeper into each identified mask, decomposing the object-level concepts into intrinsic concepts and general concepts. This decomposition allows for a more granular and interpretable breakdown of visual elements. Our framework demonstrates superior performance on intrinsic concept extraction from a single image in an unsupervised manner. Project page: https://visual-ai.github.io/ice

arxiv情報

著者 Fernando Julio Cendra,Kai Han
発行日 2025-03-25 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません

Scaling Vision Pre-Training to 4K Resolution

要約

視覚的詳細の高解像度の認識は、毎日のタスクにとって重要です。
ただし、現在の視力は、より大きな画像を処理するための2次コストのため、依然として低解像度(378 x 378ピクセルなど)に限定されています。
ClipスタイルのビジョンをスケーリングするPS3を、ほぼ一定のコストで4K解像度までトレーニング前に導入します。
グローバルな画像表現での対照的な学習の代わりに、PS3はローカル領域を選択的に処理し、ローカルの詳細なキャプションと対比することにより事前に訓練され、計算オーバーヘッドが大幅に減少して高解像度表現学習を可能にします。
事前に訓練されたPS3は、低解像度でグローバルイメージをエンコードし、テキストプロンプトとの関連性または関連性に基づいてローカル高解像度領域を選択的に処理することができます。
PS3をマルチモーダルLLM(MLLM)に適用する場合、VILA-HDという名前の結果のモデルは、最大4.3倍のトケンを使用しながら、AnysやS^2などの高解像度の視力前トレーニングなしのベースラインと比較して高解像度の視覚的知覚を大幅に改善します。
PS3は、Vila-HDの魅力的なスケーリングプロパティのロックを解除します。これには、解像度を無料でスケーリングし、テスト時間コンピューティングをスケーリングしてパフォーマンスを向上させます。
State of Artsと比較して、Vila-HDは、複数のベンチマークにわたってNVILAやQWEN2-VLなどの以前のMLLMを上回り、最新のトークン剪定アプローチよりも優れた効率を達成します。
最後に、現在のベンチマークは4K解像度の知覚を必要としないことがわかります。これにより、4KPRO、4K分解能の画像QAの新しいベンチマークを提案するように動機付けられています。VILA-HDは、GPT-4Oよりも14.5%の改善、3.2%の改善とQwen2-vlを超える2.96xスピードアップを含む、以前のすべてのMLLMを上回ります。

要約(オリジナル)

High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

arxiv情報

著者 Baifeng Shi,Boyi Li,Han Cai,Yao Lu,Sifei Liu,Marco Pavone,Jan Kautz,Song Han,Trevor Darrell,Pavlo Molchanov,Hongxu Yin
発行日 2025-03-25 17:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Vision Pre-Training to 4K Resolution はコメントを受け付けていません

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

要約

動画予測では、出力が一貫性があり、アーティファクトがないことを確認するための時間的な一貫性が重要です。
一時的な注意や3D畳み込みなどの従来の方法は、重要なオブジェクトの動きに苦労する可能性があり、動的シーンで長距離の時間的依存関係をキャプチャしない場合があります。
このギャップに対処するために、ポイントトラックを使用してモーション情報を明示的に統合する新しいアーキテクチャコンポーネント、つまりフレーム間の対応するポイントのシーケンスを明示的に統合するトラックテンションレイヤーを提案します。
これらのモーションキューを組み込むことにより、トラックテンションレイヤーは時間的アライメントを強化し、複雑なオブジェクトモーションを効果的に処理し、時間の経過とともに一貫した特徴表現を維持します。
私たちのアプローチは計算上効率的であり、最小限の変更を加えて、Vision Transformersなどの既存のモデルにシームレスに統合できます。
画像のみのモデルを最先端のビデオのモデルにアップグレードするために使用できます。これは、ビデオ予測のためにネイティブに設計されたモデルを上回ることがあります。
これをビデオの深さの予測とビデオの色付けで示します。ここでは、トラッキングレイヤーで増強されたモデルがベースラインと比較して時間的一貫性を大幅に改善しました。

要約(オリジナル)

Temporal consistency is critical in video prediction to ensure that outputs are coherent and free of artifacts. Traditional methods, such as temporal attention and 3D convolution, may struggle with significant object motion and may not capture long-range temporal dependencies in dynamic scenes. To address this gap, we propose the Tracktention Layer, a novel architectural component that explicitly integrates motion information using point tracks, i.e., sequences of corresponding points across frames. By incorporating these motion cues, the Tracktention Layer enhances temporal alignment and effectively handles complex object motions, maintaining consistent feature representations over time. Our approach is computationally efficient and can be seamlessly integrated into existing models, such as Vision Transformers, with minimal modification. It can be used to upgrade image-only models to state-of-the-art video ones, sometimes outperforming models natively designed for video prediction. We demonstrate this on video depth prediction and video colorization, where models augmented with the Tracktention Layer exhibit significantly improved temporal consistency compared to baselines.

arxiv情報

著者 Zihang Lai,Andrea Vedaldi
発行日 2025-03-25 17:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better はコメントを受け付けていません

Reanimating Images using Neural Representations of Dynamic Stimuli

要約

コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げましたが、複雑で動的な動きの理解を必要とするタスクでの人間のパフォーマンスと依然として一致していません。
これは、具体化されたエージェントが複雑でモーションが豊富な環境に直面している実際のシナリオに特に当てはまります。
私たちのアプローチ、脳の脳(動的刺激の脳ネオラル表現)は、最先端のビデオ拡散モデルを活用して、動きの生成から静的画像表現を切り離し、動的視覚刺激に対する人間の反応のより深い理解のためにfMRI脳活動を利用できるようにします。
逆に、脳の運動表現に関する情報が人工システムにおける光学流の予測を強化できることも示しています。
私たちの斬新なアプローチは、4つの主要な発見につながります。(1)微調整されたオブジェクトレベルの解像度の光学フローとして表される視覚運動は、ビデオ刺激を見る参加者によって生成された脳活動から解読できます。
(2)ビデオエンコーダーは、ビデオ駆動型の脳活動を予測する際に画像ベースのモデルを上回る。
(3)脳で設定されたモーションシグナルは、ビデオの初期フレームにのみ基づいて現実的なビデオ蘇生を可能にします。
(4)ビデオ主導の脳活動から完全なビデオデコードを達成するために、以前の作業を延長します。
Brainnrdsは、脳が動的な視覚シーンで空間的および時間的情報をどのように表すかについての理解を進めます。
私たちの調査結果は、より堅牢で生物学的にインスパイアされたコンピュータービジョンシステムを開発するための脳イメージングとビデオ拡散モデルを組み合わせる可能性を示しています。
このサイトで追加のデコードとエンコードの例を示します:https://brain-nrds.github.io/。

要約(オリジナル)

While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach, BrainNRDS (Brain-Neural Representations of Dynamic Stimuli), leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain’s representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. BrainNRDS advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://brain-nrds.github.io/.

arxiv情報

著者 Jacob Yeung,Andrew F. Luo,Gabriel Sarch,Margaret M. Henderson,Deva Ramanan,Michael J. Tarr
発行日 2025-03-25 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC | Reanimating Images using Neural Representations of Dynamic Stimuli はコメントを受け付けていません

AvatarArtist: Open-Domain 4D Avatarization

要約

この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する目的で、オープンドメイン4Dアバタル化に焦点を当てています。
パラメトリックトリプランは中間4D表現として選択し、生成的敵対的ネットワーク(GANS)と拡散モデルの両方を活用する実用的なトレーニングパラダイムを提案します。
私たちのデザインは、4D GANが監督なしで画像やトリプランを橋渡しすることに優れているが、通常は多様なデータ分布の処理において課題に直面しているという観察から生じています。
堅牢な2D拡散事前の事前は解決策として現れ、GANがさまざまなドメインにわたって専門知識を転送するのを支援します。
これらの専門家間の相乗効果により、一般的な4Dアバター作成者の開発を促進するマルチドメイン画像トリプレンデータセットの構築が可能になります。
広範な実験は、私たちのモデルであるAvatarartistが、さまざまなソース画像ドメインに強い堅牢性を持つ高品質の4Dアバターを生産できることを示唆しています。
コード、データ、モデルは、将来の研究を促進するために公開されます。

要約(オリジナル)

This work focuses on open-domain 4D avatarization, with the purpose of creating a 4D avatar from a portrait image in an arbitrary style. We select parametric triplanes as the intermediate 4D representation and propose a practical training paradigm that takes advantage of both generative adversarial networks (GANs) and diffusion models. Our design stems from the observation that 4D GANs excel at bridging images and triplanes without supervision yet usually face challenges in handling diverse data distributions. A robust 2D diffusion prior emerges as the solution, assisting the GAN in transferring its expertise across various domains. The synergy between these experts permits the construction of a multi-domain image-triplane dataset, which drives the development of a general 4D avatar creator. Extensive experiments suggest that our model, AvatarArtist, is capable of producing high-quality 4D avatars with strong robustness to various source image domains. The code, the data, and the models will be made publicly available to facilitate future studies..

arxiv情報

著者 Hongyu Liu,Xuan Wang,Ziyu Wan,Yue Ma,Jingye Chen,Yanbo Fan,Yujun Shen,Yibing Song,Qifeng Chen
発行日 2025-03-25 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AvatarArtist: Open-Domain 4D Avatarization はコメントを受け付けていません