MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

要約

最近のビデオ生成の進歩により、視覚の質と時間的一貫性の著しい改善がもたらされました。
これに加えて、明示的に定義された空間パスを介して正確なオブジェクトモーション制御を可能にするために、軌道制御可能なビデオ生成が登場しました。
ただし、既存の方法は、複雑なオブジェクトの動きとマルチオブジェクトモーションコントロールと闘うため、不正な軌跡の順守、オブジェクトの一貫性の低下、視覚品質の侵害が生じます。
さらに、これらの方法は、単一の形式での軌道制御のみをサポートし、多様なシナリオでの適用性を制限します。
さらに、軌道制御可能なビデオ生成に合わせて仕立てられた公開されたデータセットまたはベンチマークは、堅牢なトレーニングと体系的な評価を妨げません。
これらの課題に対処するために、マジックモーションを紹介します。これは、密集からスパースまでの3つのレベルの条件を介して軌道制御を可能にする新しい画像からビデオへの生成フレームワークです。マスク、境界ボックス、スパースボックスです。
入力画像と軌跡が与えられた場合、MagicMotionは、オブジェクトの一貫性と視覚品質を維持しながら、定義された軌跡に沿ってオブジェクトをシームレスにアニメーション化します。
さらに、大規模な軌跡制御ビデオデータセットであるMagicDataと、注釈とフィルタリングのための自動パイプラインを提示します。
また、さまざまな数のオブジェクトにわたってビデオ品質と軌道制御の精度の両方を評価する包括的なベンチマークであるMagicBenchも紹介します。
広範な実験は、MagicMotionがさまざまなメトリックにわたって以前の方法よりも優れていることを示しています。
プロジェクトページは、https://quanhaol.github.io/magicmotion-siteで公開されています。

要約(オリジナル)

Recent advances in video generation have led to remarkable improvements in visual quality and temporal coherence. Upon this, trajectory-controllable video generation has emerged to enable precise object motion control through explicitly defined spatial paths. However, existing methods struggle with complex object movements and multi-object motion control, resulting in imprecise trajectory adherence, poor object consistency, and compromised visual quality. Furthermore, these methods only support trajectory control in a single format, limiting their applicability in diverse scenarios. Additionally, there is no publicly available dataset or benchmark specifically tailored for trajectory-controllable video generation, hindering robust training and systematic evaluation. To address these challenges, we introduce MagicMotion, a novel image-to-video generation framework that enables trajectory control through three levels of conditions from dense to sparse: masks, bounding boxes, and sparse boxes. Given an input image and trajectories, MagicMotion seamlessly animates objects along defined trajectories while maintaining object consistency and visual quality. Furthermore, we present MagicData, a large-scale trajectory-controlled video dataset, along with an automated pipeline for annotation and filtering. We also introduce MagicBench, a comprehensive benchmark that assesses both video quality and trajectory control accuracy across different numbers of objects. Extensive experiments demonstrate that MagicMotion outperforms previous methods across various metrics. Our project page are publicly available at https://quanhaol.github.io/magicmotion-site.

arxiv情報

著者 Quanhao Li,Zhen Xing,Rui Wang,Hui Zhang,Qi Dai,Zuxuan Wu
発行日 2025-03-20 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance はコメントを受け付けていません

1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

要約

4D Gaussian Splatting(4DGS)は、最近、動的シーンを再構築する方法としてかなりの注目を集めています。
優れた品質を達成したにもかかわらず、4DGは通常、かなりの保管を必要とし、レンダリング速度が遅くなります。
この作業では、これらの問題を掘り下げ、時間的冗長性の2つの重要なソースを特定します。
(q1)\ textbf {short-lifespan gaussians}:4DGSは、短い時間スパンのガウスの大部分を使用してシーンのダイナミクスを表し、過剰な数のガウス人につながります。
(q2)\ textbf {inactive gaussians}:レンダリングするとき、ガウスの小さなサブセットのみが各フレームに貢献します。
それにもかかわらず、すべてのガウス人はラスター化中に処理され、その結果、冗長な計算オーバーヘッドが生じます。
これらの冗長性に対処するために、最新のGPUで1000 fpsを超える\ textbf {4dgs-1k}を提示します。
Q1の場合、空間的変動スコアを導入します。これは、短幅のガウス人を効果的に除去しながら、より長い時間スパンのガウスを使用してシーンのダイナミクスをキャプチャするように4DGを奨励する新しい剪定基準です。
Q2の場合、連続したフレームにわたってアクティブなガウスのマスクを保存し、レンダリングの冗長計算を大幅に削減します。
Vanilla 4DGSと比較して、当社の方法では、$ 41 \ Times Storageの削減と、複雑な動的シーンでのラスター化速度が9ドル削減され、同等の視覚品質を維持します。
https://4dgs-1k.github.ioのプロジェクトページをご覧ください。

要約(オリジナル)

4D Gaussian Splatting (4DGS) has recently gained considerable attention as a method for reconstructing dynamic scenes. Despite achieving superior quality, 4DGS typically requires substantial storage and suffers from slow rendering speed. In this work, we delve into these issues and identify two key sources of temporal redundancy. (Q1) \textbf{Short-Lifespan Gaussians}: 4DGS uses a large portion of Gaussians with short temporal span to represent scene dynamics, leading to an excessive number of Gaussians. (Q2) \textbf{Inactive Gaussians}: When rendering, only a small subset of Gaussians contributes to each frame. Despite this, all Gaussians are processed during rasterization, resulting in redundant computation overhead. To address these redundancies, we present \textbf{4DGS-1K}, which runs at over 1000 FPS on modern GPUs. For Q1, we introduce the Spatial-Temporal Variation Score, a new pruning criterion that effectively removes short-lifespan Gaussians while encouraging 4DGS to capture scene dynamics using Gaussians with longer temporal spans. For Q2, we store a mask for active Gaussians across consecutive frames, significantly reducing redundant computations in rendering. Compared to vanilla 4DGS, our method achieves a $41\times$ reduction in storage and $9\times$ faster rasterization speed on complex dynamic scenes, while maintaining comparable visual quality. Please see our project page at https://4DGS-1K.github.io.

arxiv情報

著者 Yuheng Yuan,Qiuhong Shen,Xingyi Yang,Xinchao Wang
発行日 2025-03-20 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering はコメントを受け付けていません

GAEA: A Geolocation Aware Conversational Model

要約

画像ジオローカリゼーションは、従来、AIモデルが画像の正確なGPS座標を予測することは、多くのダウンストリームアプリケーションを備えた挑戦的なタスクです。
ただし、ユーザーはGPS座標以外の知識を促進するためにモデルを利用することはできません。
このモデルには、場所とユーザーと通信する会話能力の理解がありません。
最近では、大規模なマルチモーダルモデル(LMMS)独自およびオープンソースの研究者の大きな進歩により、LMMを介して画像をジオローカライズしようとしました。
ただし、問題は報告されていません。
一般的なタスクを超えて、より専門化されたダウンストリームタスクについては、Geolocalization、LMMS闘争です。
この作業では、ユーザーが要求するように、画像の場所に関する情報を提供できる会話モデルGAEAを導入することにより、この問題を解決することを提案します。
このようなモデルのトレーニングを可能にする大規模なデータセットは存在しません。
したがって、OpenStreetMap(OSM)属性と地理的コンテキストの手がかりを活用することによって構築された800K画像と約160万の質問回答ペアを備えた包括的なデータセットGAEAを提案します。
定量的評価のために、多様な質問タイプを備えた会話機能を評価するために、4K画像テキストペアを含む多様なベンチマークを提案します。
11の最先端のオープンソースと独自のLMMを検討し、GAEAが最高のオープンソースモデルであるLlava-onevisionを25.69%上回り、GPT-4oを8.28%上回ることを実証します。
データセット、モデル、コードが利用可能です

要約(オリジナル)

Image geolocalization, in which, traditionally, an AI model predicts the precise GPS coordinates of an image is a challenging task with many downstream applications. However, the user cannot utilize the model to further their knowledge other than the GPS coordinate; the model lacks an understanding of the location and the conversational ability to communicate with the user. In recent days, with tremendous progress of large multimodal models (LMMs) proprietary and open-source researchers have attempted to geolocalize images via LMMs. However, the issues remain unaddressed; beyond general tasks, for more specialized downstream tasks, one of which is geolocalization, LMMs struggle. In this work, we propose to solve this problem by introducing a conversational model GAEA that can provide information regarding the location of an image, as required by a user. No large-scale dataset enabling the training of such a model exists. Thus we propose a comprehensive dataset GAEA with 800K images and around 1.6M question answer pairs constructed by leveraging OpenStreetMap (OSM) attributes and geographical context clues. For quantitative evaluation, we propose a diverse benchmark comprising 4K image-text pairs to evaluate conversational capabilities equipped with diverse question types. We consider 11 state-of-the-art open-source and proprietary LMMs and demonstrate that GAEA significantly outperforms the best open-source model, LLaVA-OneVision by 25.69% and the best proprietary model, GPT-4o by 8.28%. Our dataset, model and codes are available

arxiv情報

著者 Ron Campos,Ashmal Vayani,Parth Parag Kulkarni,Rohit Gupta,Aritra Dutta,Mubarak Shah
発行日 2025-03-20 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.7 | GAEA: A Geolocation Aware Conversational Model はコメントを受け付けていません

Bézier Splatting for Fast and Differentiable Vector Graphics

要約

微分可能なベクトルグラフィックス(VG)は画像ベクトル化とベクトル合成で広く使用されていますが、既存の表現は高解像度画像の高品質のレンダリング結果を達成するために最適化し、苦労しています。
この作業では、b \ ‘ezierスプラッティングと呼ばれる新しい微分可能なVG表現を導入し、高速でありながら忠実度の高いVGラスター化を可能にします。
b \ ‘ezierスプラッティングサンプルb \’ ezier曲線に沿った2Dガウスのサンプルは、オブジェクト境界で位置勾配を自然に提供します。
効率的なスプラッティングベースの微分可能なラスターザーのおかげで、b \ ‘ezierスプラッティングは、diffvgと比較して、開いた曲線の前方および後方ラスター化ステップあたり20倍以上の速い速度を達成します。
さらに、曲線の空間分布を動的に調整してローカルミニマイを逃れ、VGの品質をさらに向上させる適応的な剪定および密度化戦略を導入します。
実験結果は、b \ ‘ezierスプラッツが視覚的忠実度が向上し、最適化速度が10倍高くなると、既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

Differentiable vector graphics (VGs) are widely used in image vectorization and vector synthesis, while existing representations are costly to optimize and struggle to achieve high-quality rendering results for high-resolution images. This work introduces a new differentiable VG representation, dubbed B\’ezier splatting, that enables fast yet high-fidelity VG rasterization. B\’ezier splatting samples 2D Gaussians along B\’ezier curves, which naturally provide positional gradients at object boundaries. Thanks to the efficient splatting-based differentiable rasterizer, B\’ezier splatting achieves over 20x and 150x faster per forward and backward rasterization step for open curves compared to DiffVG. Additionally, we introduce an adaptive pruning and densification strategy that dynamically adjusts the spatial distribution of curves to escape local minima, further improving VG quality. Experimental results show that B\’ezier splatting significantly outperforms existing methods with better visual fidelity and 10x faster optimization speed.

arxiv情報

著者 Xi Liu,Chaoyi Zhou,Nanxuan Zhao,Siyu Huang
発行日 2025-03-20 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Bézier Splatting for Fast and Differentiable Vector Graphics はコメントを受け付けていません

Tokenize Image as a Set

要約

このペーパーでは、セットベースのトークン化と分布モデリングを通じて、画像生成のための根本的に新しいパラダイムを提案します。
画像を均一な圧縮比を持つ固定位置の潜在コードにシリアル化する従来の方法とは異なり、地域の意味的複雑さに基づいてコーディング容量を動的に割り当てるために、順序付けられていないトークンセット表現を導入します。
このトークンセットは、グローバルなコンテキスト集約を強化し、ローカル摂動に対する堅牢性を向上させます。
個別のセットをモデリングするという重要な課題に対処するために、総合的な制約を備えたセットを生物的に整数整数シーケンスに生物的に変換する二重変換メカニズムを考案します。
さらに、固定されたサムの離散拡散(離散値、固定シーケンス長、および合計不変性を同時に処理する最初のフレームワーク)を提案します。
実験は、セマンティックに対応する表現と生成の質における私たちの方法の優位性を示しています。
新しい表現とモデリング戦略にまたがる私たちの革新は、従来のシーケンシャルトークンパラダイムを超えて視覚的な生成を進めています。
私たちのコードとモデルは、https://github.com/gengzigang/tokensetで公開されています。

要約(オリジナル)

This paper proposes a fundamentally new paradigm for image generation through set-based tokenization and distribution modeling. Unlike conventional methods that serialize images into fixed-position latent codes with a uniform compression ratio, we introduce an unordered token set representation to dynamically allocate coding capacity based on regional semantic complexity. This TokenSet enhances global context aggregation and improves robustness against local perturbations. To address the critical challenge of modeling discrete sets, we devise a dual transformation mechanism that bijectively converts sets into fixed-length integer sequences with summation constraints. Further, we propose Fixed-Sum Discrete Diffusion–the first framework to simultaneously handle discrete values, fixed sequence length, and summation invariance–enabling effective set distribution modeling. Experiments demonstrate our method’s superiority in semantic-aware representation and generation quality. Our innovations, spanning novel representation and modeling strategies, advance visual generation beyond traditional sequential token paradigms. Our code and models are publicly available at https://github.com/Gengzigang/TokenSet.

arxiv情報

著者 Zigang Geng,Mengde Xu,Han Hu,Shuyang Gu
発行日 2025-03-20 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tokenize Image as a Set はコメントを受け付けていません

DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

要約

リモートセンシングテクノロジーの進歩により、衛星画像の空間解像度が改善され、多様な解釈のためのより詳細な視覚表現が促進されました。
ただし、既存の方法は、さまざまなアプリケーション全体で限られた一般化機能を示しています。
一部の現代の基礎モデルは潜在能力を示していますが、クロスタスクの適応性が不十分であり、主に制限されたサイズの低解像度の画像を処理することで妨げられているため、高解像度のデータを完全に活用したり、包括的な大型セマンティクスを活用したりしません。
重要なことに、リモートセンシングの画像は、主要な前景ターゲット(たとえば、海上物体、人工構造など)が最小限の空間的割合(〜1%)を占め、まばらな分布を示すため、自然な画像と根本的に異なります。
長い2Dトークン(〜100,000)からのクロスタスクの一般化可能な知識を効率的にモデリングすることは、重要な課題をもたらしますが、リモートセンシング画像の理解には重要です。
人間の視覚システムに固有の選択的注意メカニズムに動機付けられ、リモートセンシング画像の動的視覚認識基盤モデルであるDynamicvisを提案します。
フレームワークは、選択的状態空間モデルに基づいて新しい動的領域知覚バックボーンを統合します。これは、局所的な詳細抽出とグローバルなコンテキスト統合と戦略的にバランスを取り、アーキテクチャのスケーラビリティを維持しながら大規模データの計算効率的なエンコードを可能にします。
クロスタスクの知識転送を強化するために、メタ埋め込み表現を利用したマルチインスタンス学習パラダイムを導入し、100万台の地域レベルの注釈で訓練されています。
9つのダウンストリームタスクにわたる評価は、モデルの汎用性を示しています。
DynamicVisは、並外れた効率、処理(2048×2048)ピクセルで97ミリ秒(VITの6%)および833 MB GPUメモリ(VITの3%)でマルチレベル機能モデリングを実現します。

要約(オリジナル)

The advancement of remote sensing technology has improved the spatial resolution of satellite imagery, facilitating more detailed visual representations for diverse interpretations. However, existing methods exhibit limited generalization capabilities across varied applications. While some contemporary foundation models demonstrate potential, they are hindered by insufficient cross-task adaptability and primarily process low-resolution imagery of restricted sizes, thus failing to fully exploit high-resolution data or leverage comprehensive large-scene semantics. Crucially, remote sensing imagery differs fundamentally from natural images, as key foreground targets (eg., maritime objects, artificial structures) often occupy minimal spatial proportions (~1%) and exhibit sparse distributions. Efficiently modeling cross-task generalizable knowledge from lengthy 2D tokens (~100,000) poses a significant challenge yet remains critical for remote sensing image understanding. Motivated by the selective attention mechanisms inherent to the human visual system, we propose DynamicVis, a dynamic visual perception foundation model for remote sensing imagery. The framework integrates a novel dynamic region perception backbone based on the selective state space model, which strategically balances localized detail extraction with global contextual integration, enabling computationally efficient encoding of large-scale data while maintaining architectural scalability. To enhance cross-task knowledge transferring, we introduce a multi-instance learning paradigm utilizing meta-embedding representations, trained on million-scale region-level annotations. Evaluations across nine downstream tasks demonstrate the model’s versatility. DynamicVis achieves multi-level feature modeling with exceptional efficiency, processing (2048×2048) pixels with 97 ms latency (6% of ViT’s) and 833 MB GPU memory (3% of ViT’s).

arxiv情報

著者 Keyan Chen,Chenyang Liu,Bowen Chen,Wenyuan Li,Zhengxia Zou,Zhenwei Shi
発行日 2025-03-20 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding はコメントを受け付けていません

Multi-subject Open-set Personalization in Video Generation

要約

ビデオパーソナライズ方法により、人、ペット、場所などの特定の概念を持つビデオを統合することができます。
ただし、既存の方法は、限られたドメインに焦点を合わせたり、被験者ごとに時間のかかる最適化を必要としたり、単一の被験者のみをサポートする必要があります。
ビデオ錬金術師$を提示します – $は、前景オブジェクトと背景の両方に組み込まれたマルチサブジェクトのオープンセットパーソナライズ機能を備えたビデオモデルを紹介し、時間のかかるテスト時間最適化の必要性を排除します。
私たちのモデルは、各条件付き参照画像と、対応するサブジェクトレベルのテキストプロンプトと交差アテンションレイヤーを融合する新しい拡散トランスモジュールの上に構築されています。
このような大きなモデルを開発するには、データセットと評価という2つの主な課題があります。
まず、参照画像とビデオのペア付きデータセットを収集するのは非常に困難であるため、選択したビデオフレームを参照画像としてサンプリングし、ターゲットビデオのクリップを合成します。
ただし、モデルは参照フレームを与えられたビデオを簡単に非表示にすることができますが、新しいコンテキストに一般化することはできません。
この問題を軽減するために、広範な画像の増強を備えた新しい自動データ構築パイプラインを設計します。
第二に、オープンセットのビデオパーソナライズを評価すること自体が課題です。
これに対処するために、正確な主題の忠実度に焦点を当て、多様なパーソナライズシナリオをサポートするパーソナライズベンチマークを紹介します。
最後に、私たちの広範な実験は、私たちの方法が定量的評価と定性的評価の両方で既存のパーソナライズ方法を大幅に上回ることを示しています。

要約(オリジナル)

Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist $-$ a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

arxiv情報

著者 Tsai-Shien Chen,Aliaksandr Siarohin,Willi Menapace,Yuwei Fang,Kwot Sin Lee,Ivan Skorokhodov,Kfir Aberman,Jun-Yan Zhu,Ming-Hsuan Yang,Sergey Tulyakov
発行日 2025-03-20 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-subject Open-set Personalization in Video Generation はコメントを受け付けていません

XAttention: Block Sparse Attention with Antidiagonal Scoring

要約

長期変圧器モデル(LCTMS)は、実際のアプリケーションには不可欠ですが、注意の二次の複雑さのために高い計算コストを受けます。
ブロックスパースの注意は、重要な領域に計算を集中することによりこれを軽減しますが、既存の方法は、費用のかかるブロックの重要性測定による精度と効率のバランスをとることに苦労しています。
この論文では、まばらな注意を使用してトランスモデルの長いコンテキスト推論を劇的に加速するプラグアンドプレイフレームワークであるXattentionを紹介します。
Xattentionの主要な革新は、注意マトリックスの抗角値の合計(つまり、左から下への右へ)の合計がブロックの重要性の強力なプロキシを提供するという洞察です。
これにより、非必須ブロックの正確な識別と剪定が可能になり、その結果、スパース性が高く、推論が劇的に加速されます。
包括的な評価を通じて、要求する長いコンテストのベンチマークなど、言語のためのロングベンチ、ビデオ理解のためのVideomme、ビデオ生成のためのVbenchを含む要求の要求について。
Xattentionは、実質的な計算上の利益を提供しながら、完全な注意に匹敵する精度を達成します。
注意計算で最大13.5倍の加速を示します。
これらの結果は、Xattentionがブロックスパースの注意の実際的な可能性を解き放つ能力を強調し、実際のアプリケーションでのLCTMのスケーラブルで効率的な展開への道を開いています。
コードはhttps://github.com/mit-han-lab/x-attentionで入手できます。

要約(オリジナル)

Long-Context Transformer Models (LCTMs) are vital for real-world applications but suffer high computational costs due to attention’s quadratic complexity. Block-sparse attention mitigates this by focusing computation on critical regions, yet existing methods struggle with balancing accuracy and efficiency due to costly block importance measurements. In this paper, we introduce XAttention, a plug-and-play framework that dramatically accelerates long-context inference in Transformers models using sparse attention. XAttention’s key innovation is the insight that the sum of antidiagonal values (i.e., from the lower-left to upper-right) in the attention matrix provides a powerful proxy for block importance. This allows for precise identification and pruning of non-essential blocks, resulting in high sparsity and dramatically accelerated inference. Across comprehensive evaluations on demanding long-context benchmarks-including RULER and LongBench for language, VideoMME for video understanding, and VBench for video generation. XAttention achieves accuracy comparable to full attention while delivering substantial computational gains. We demonstrate up to 13.5x acceleration in attention computation. These results underscore XAttention’s ability to unlock the practical potential of block sparse attention, paving the way for scalable and efficient deployment of LCTMs in real-world applications. Code is available at https://github.com/mit-han-lab/x-attention.

arxiv情報

著者 Ruyi Xu,Guangxuan Xiao,Haofeng Huang,Junxian Guo,Song Han
発行日 2025-03-20 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | XAttention: Block Sparse Attention with Antidiagonal Scoring はコメントを受け付けていません

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

要約

通常、オートレーリングの視覚生成モデルは、トークン剤に依存して、順次予測できるトークンに画像を圧縮します。
トークン表現には根本的なジレンマが存在します。離散トークンは、標準的なエントロピー損失を伴う簡単なモデリングを可能にしますが、情報損失とトークナイザートレーニングの不安定性に悩まされます。
連続トークンは視覚的な詳細をよりよく保持しますが、複雑な分布モデリングが必要であり、生成パイプラインを複雑にします。
この論文では、Tokenbridgeを提案します。トークンブリッジは、離散トークンのモデリングシンプルさを保持しながら、連続トークンの強力な表現能力を維持することによりこのギャップを埋めることを提案します。
これを達成するために、連続表現から離散トークンを直接取得するトレーニング後の量子化を通じて、トークン剤トレーニングプロセスから離散化を分離します。
具体的には、結果として生じる大きなトークン空間を効率的にモデル化する軽量の自己回帰予測メカニズムと組み合わせた各特徴ディメンションを個別に離散化するディメンションごとの量子化戦略を導入します。
広範な実験では、我々のアプローチが標準的なカテゴリー予測を使用しながら、連続的な方法と同等の再構築と生成の品質を達成することを示しています。
この作業は、個別のパラダイムを橋渡しすることで、両方のアプローチの強みを効果的に活用し、単純な自己回帰モデリングを備えた高品質の視覚生成の有望な方向を提供できることを示しています。
プロジェクトページ:https://yuqingwang1029.github.io/tokenbridge。

要約(オリジナル)

Autoregressive visual generation models typically rely on tokenizers to compress images into tokens that can be predicted sequentially. A fundamental dilemma exists in token representation: discrete tokens enable straightforward modeling with standard cross-entropy loss, but suffer from information loss and tokenizer training instability; continuous tokens better preserve visual details, but require complex distribution modeling, complicating the generation pipeline. In this paper, we propose TokenBridge, which bridges this gap by maintaining the strong representation capacity of continuous tokens while preserving the modeling simplicity of discrete tokens. To achieve this, we decouple discretization from the tokenizer training process through post-training quantization that directly obtains discrete tokens from continuous representations. Specifically, we introduce a dimension-wise quantization strategy that independently discretizes each feature dimension, paired with a lightweight autoregressive prediction mechanism that efficiently model the resulting large token space. Extensive experiments show that our approach achieves reconstruction and generation quality on par with continuous methods while using standard categorical prediction. This work demonstrates that bridging discrete and continuous paradigms can effectively harness the strengths of both approaches, providing a promising direction for high-quality visual generation with simple autoregressive modeling. Project page: https://yuqingwang1029.github.io/TokenBridge.

arxiv情報

著者 Yuqing Wang,Zhijie Lin,Yao Teng,Yuanzhi Zhu,Shuhuai Ren,Jiashi Feng,Xihui Liu
発行日 2025-03-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation はコメントを受け付けていません

Sonata: Self-Supervised Learning of Reliable Point Representations

要約

この論文では、限られたデータと最小計算であっても、単純な線形プロービングを介して多様な3Dタスクに使用できる信頼性の高い自己監視ポイントクラウドモデルがあるかどうかを疑問視します。
既存の3D自己監視学習アプローチは、線形プロービングを通じて表現品質について評価すると不十分であることがわかります。
これは、「幾何学的なショートカット」と呼ばれるものによるものであり、表現が低レベルの空間的特徴に崩壊する原因となると仮定します。
この課題は3Dに固有のものであり、ポイントクラウドデータのまばらな性質から生じます。
2つの重要な戦略を通じてそれに対処します。空間情報を不明瞭にし、入力機能への依存を強化し、最終的には140kポイント雲のソナタを自己導入して構成します。
Sonataはシンプルで直感的ですが、学習した表現は強力で信頼性が高くなります。ゼロショットの視覚化は、最近傍関係による強力な空間的推論とともにセマンティックグループ化を示します。
Sonataは、例外的なパラメーターとデータ効率を示し、スキャンネットでは線形プロービング精度(21.8%から72.5%)を3倍にし、以前のアプローチと比較してデータの1%のみでパフォーマンスをほぼ2倍にします。
完全な微調整は、3D屋内と屋外の認識タスクの両方でSOTAをさらに進めます。

要約(オリジナル)

In this paper, we question whether we have a reliable self-supervised point cloud model that can be used for diverse 3D tasks via simple linear probing, even with limited data and minimal computation. We find that existing 3D self-supervised learning approaches fall short when evaluated on representation quality through linear probing. We hypothesize that this is due to what we term the ‘geometric shortcut’, which causes representations to collapse to low-level spatial features. This challenge is unique to 3D and arises from the sparse nature of point cloud data. We address it through two key strategies: obscuring spatial information and enhancing the reliance on input features, ultimately composing a Sonata of 140k point clouds through self-distillation. Sonata is simple and intuitive, yet its learned representations are strong and reliable: zero-shot visualizations demonstrate semantic grouping, alongside strong spatial reasoning through nearest-neighbor relationships. Sonata demonstrates exceptional parameter and data efficiency, tripling linear probing accuracy (from 21.8% to 72.5%) on ScanNet and nearly doubling performance with only 1% of the data compared to previous approaches. Full fine-tuning further advances SOTA across both 3D indoor and outdoor perception tasks.

arxiv情報

著者 Xiaoyang Wu,Daniel DeTone,Duncan Frost,Tianwei Shen,Chris Xie,Nan Yang,Jakob Engel,Richard Newcombe,Hengshuang Zhao,Julian Straub
発行日 2025-03-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sonata: Self-Supervised Learning of Reliable Point Representations はコメントを受け付けていません