Aligning Text, Images, and 3D Structure Token-by-Token

要約

3Dで世界を理解できるマシンの作成は、3次元空間内でナビゲートおよび相互作用する3D環境とロボットを構築および編集するデザイナーを支援するのに不可欠です。
言語モデリングと画像モデリングの進歩に触発されて、新しいモダリティである構造化された3Dシーンの自己回帰モデルの可能性を調査します。
この目的のために、言語、画像、3Dシーンを調整する統一されたLLMフレームワークを提案し、データ表現、モダリティ固有の目標などに関連する重要な質問に対処する最適なトレーニングとパフォーマンスに対処するための重要なデザインの選択肢を概説する詳細な「クックブック」を提供します。
4つのコア3Dタスク(レンダリング、認識、命令フォロー、質問回答、および4つの3Dデータセット)、合成および実世界のパフォーマンスを評価します。
3Dモダリティを量子化された形状エンコーディングで濃縮することにより、複雑な3Dオブジェクト形状を再構築するアプローチを拡張し、実際の3Dオブジェクト認識タスクに対するモデルの有効性を示します。
プロジェクトWebページ:https://glab-caltech.github.io/kyvo/

要約(オリジナル)

Creating machines capable of understanding the world in 3D is essential in assisting designers that build and edit 3D environments and robots navigating and interacting within a three-dimensional space. Inspired by advances in language and image modeling, we investigate the potential of autoregressive models for a new modality: structured 3D scenes. To this end, we propose a unified LLM framework that aligns language, images, and 3D scenes and provide a detailed ”cookbook” outlining critical design choices for achieving optimal training and performance addressing key questions related to data representation, modality-specific objectives, and more. We evaluate performance across four core 3D tasks — rendering, recognition, instruction-following, and question-answering — and four 3D datasets, synthetic and real-world. We extend our approach to reconstruct complex 3D object shapes by enriching our 3D modality with quantized shape encodings, and show our model’s effectiveness on real-world 3D object recognition tasks. Project webpage: https://glab-caltech.github.io/kyvo/

arxiv情報

著者 Aadarsh Sahoo,Vansh Tibrewal,Georgia Gkioxari
発行日 2025-06-09 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligning Text, Images, and 3D Structure Token-by-Token はコメントを受け付けていません

Audio-Sync Video Generation with Multi-Stream Temporal Control

要約

オーディオは本質的に一時的であり、視覚的な世界と密接に同期されているため、制御可能なビデオ生成(映画など)の自然に整列した表現力のある制御信号となっています。
制御を超えて、オーディオをビデオに直接変換することは、豊かなオーディオの物語(ポッドキャストや歴史的な録音など)を理解して視覚化するために不可欠です。
ただし、既存のアプローチは、特に多様で複雑なオーディオタイプ全体にわたって、正確なオーディオビジュアル同期を備えた高品質のビデオを生成することに不足しています。
この作業では、オーディオシンクビデオ生成のための多用途のフレームワークであるMTVを紹介します。
MTVは、オーディオを音声、エフェクト、音楽トラックに明示的に分離し、それぞれリップモーション、イベントタイミング、視覚的なムードを解き放つ制御を可能にします。
フレームワークをサポートするために、高品質の映画のビデオとデミキスされたオーディオトラックを含むデータセットであるDemixをさらに発表します。
Demixは5つのオーバーラップサブセットに構造化されており、多様な生成シナリオのスケーラブルなマルチステージトレーニングを可能にします。
広範な実験は、MTVがビデオ品質、テキストビデオの一貫性、およびオーディオビデオアライメントにまたがる6つの標準メトリックで最先端のパフォーマンスを達成することを示しています。
プロジェクトページ:https://hjzheng.net/projects/mtv/。

要約(オリジナル)

Audio is inherently temporal and closely synchronized with the visual world, making it a naturally aligned and expressive control signal for controllable video generation (e.g., movies). Beyond control, directly translating audio into video is essential for understanding and visualizing rich audio narratives (e.g., Podcasts or historical recordings). However, existing approaches fall short in generating high-quality videos with precise audio-visual synchronization, especially across diverse and complex audio types. In this work, we introduce MTV, a versatile framework for audio-sync video generation. MTV explicitly separates audios into speech, effects, and music tracks, enabling disentangled control over lip motion, event timing, and visual mood, respectively — resulting in fine-grained and semantically aligned video generation. To support the framework, we additionally present DEMIX, a dataset comprising high-quality cinematic videos and demixed audio tracks. DEMIX is structured into five overlapped subsets, enabling scalable multi-stage training for diverse generation scenarios. Extensive experiments demonstrate that MTV achieves state-of-the-art performance across six standard metrics spanning video quality, text-video consistency, and audio-video alignment. Project page: https://hjzheng.net/projects/MTV/.

arxiv情報

著者 Shuchen Weng,Haojie Zheng,Zheng Chang,Si Li,Boxin Shi,Xinlong Wang
発行日 2025-06-09 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Audio-Sync Video Generation with Multi-Stream Temporal Control はコメントを受け付けていません

Dynamic View Synthesis as an Inverse Problem

要約

この作業では、トレーニングなしの設定での逆の問題として、単眼動画からの動的ビューの合成に対処します。
事前に訓練されたビデオ拡散モデルのノイズ初期化フェーズを再設計することにより、重量の更新や補助モジュールなしで高忠実度の動的ビュー合成を有効にします。
まず、ゼロ末端信号対雑音比(SNR)スケジュールから生じる決定論的反転に対する根本的な障害を特定し、K-order Recursive Noise表現と呼ばれる新しいノイズ表現を導入することによりそれを解決します。
この表現のために閉じた形式の式を導き出し、VAEエンコードされた潜在潜水vateとDDIMの逆潜レントとの間の正確で効率的なアライメントを可能にします。
カメラの動きに起因する新たに可視される領域を合成するために、潜在領域を完全に閉じ込めて潜在スペースを介して視界を認識してサンプリングを実行する確率的潜在的変調を導入します。
包括的な実験は、ノイズ初期化フェーズでの構造化された潜在操作を通じて、動的ビュー合成を効果的に実行できることを示しています。

要約(オリジナル)

In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.

arxiv情報

著者 Hidir Yesiltepe,Pinar Yanardag
発行日 2025-06-09 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dynamic View Synthesis as an Inverse Problem はコメントを受け付けていません

ZeroVO: Visual Odometry with Minimal Assumptions

要約

多様なカメラや環境でゼロショット一般化を達成する新しい視覚臭気(VO)アルゴリズムであるZerovoを紹介し、事前定義または静的カメラのキャリブレーションセットアップに依存する既存の方法の制限を克服します。
私たちのアプローチには、3つの主要なイノベーションが組み込まれています。
まず、推定された深さとカメラのパラメーターでノイズを処理できるキャリブレーションのない幾何学的なネットワーク構造を設計します。
第二に、セマンティック情報を注入して、以前に見えなかったドメインへの堅牢な特徴抽出と一般化を強化する言語ベースの事前を導入します。
第三に、不明なデータを使用して新しいシーンに繰り返し適応する柔軟で半監視されたトレーニングパラダイムを開発し、多様な現実世界のシナリオ全体に一般化するモデルの能力をさらに高めます。
複雑な自律運転のコンテキストを分析し、3つの標準ベンチマーク、Kitti、Nuscenes、およびArgoverse 2の以前の方法に対する30%以上の改善と、Grand Theft Auto(GTA)から派生した新たに導入された高忠実度の合成データセットを実証します。
微調整やカメラのキャリブレーションを必要とせずに、私たちの作業はVOの適用性を広げ、実際の展開に大規模な汎用ソリューションを提供します。

要約(オリジナル)

We introduce ZeroVO, a novel visual odometry (VO) algorithm that achieves zero-shot generalization across diverse cameras and environments, overcoming limitations in existing methods that depend on predefined or static camera calibration setups. Our approach incorporates three main innovations. First, we design a calibration-free, geometry-aware network structure capable of handling noise in estimated depth and camera parameters. Second, we introduce a language-based prior that infuses semantic information to enhance robust feature extraction and generalization to previously unseen domains. Third, we develop a flexible, semi-supervised training paradigm that iteratively adapts to new scenes using unlabeled data, further boosting the models’ ability to generalize across diverse real-world scenarios. We analyze complex autonomous driving contexts, demonstrating over 30% improvement against prior methods on three standard benchmarks, KITTI, nuScenes, and Argoverse 2, as well as a newly introduced, high-fidelity synthetic dataset derived from Grand Theft Auto (GTA). By not requiring fine-tuning or camera calibration, our work broadens the applicability of VO, providing a versatile solution for real-world deployment at scale.

arxiv情報

著者 Lei Lai,Zekai Yin,Eshed Ohn-Bar
発行日 2025-06-09 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZeroVO: Visual Odometry with Minimal Assumptions はコメントを受け付けていません

Dreamland: Controllable World Creation with Simulator and Generative Models

要約

大規模なビデオ生成モデルは、ダイナミックな世界創造のための多様で現実的な視覚コンテンツを合成できますが、多くの場合、要素ごとの制御性が欠けており、編集シーンとトレーニングで具体化されたAIエージェントでの使用を妨げます。
物理学ベースのシミュレータの粒状制御と大規模な事前に守られた生成モデルの光選挙的コンテンツ出力を組み合わせたハイブリッド世界世代のフレームワークであるDreamlandを提案します。
特に、シミュレーターと生成モデルを橋渡しするための中間表現として、ピクセルレベルとオブジェクトレベルのセマンティクスとジオメトリの両方をコードする層状の世界抽象化を設計します。
このアプローチは、制御可能性を向上させ、現実世界の分布との早期の整合性を通じて適応コストを最小限に抑え、既存および将来の前提条件の生成モデルの既製の使用をサポートします。
さらに、ハイブリッド生成パイプラインのトレーニングと評価を容易にするために、D3SIMデータセットを構築します。
実験は、ドリームランドが50.8%の画質を向上させ、17.9%の制御性を改善し、具体化されたエージェントトレーニングを強化する大きな可能性を備えた既存のベースラインよりも優れていることを示しています。
コードとデータが利用可能になります。

要約(オリジナル)

Large-scale video generative models can synthesize diverse and realistic visual content for dynamic world creation, but they often lack element-wise controllability, hindering their use in editing scenes and training embodied AI agents. We propose Dreamland, a hybrid world generation framework combining the granular control of a physics-based simulator and the photorealistic content output of large-scale pretrained generative models. In particular, we design a layered world abstraction that encodes both pixel-level and object-level semantics and geometry as an intermediate representation to bridge the simulator and the generative model. This approach enhances controllability, minimizes adaptation cost through early alignment with real-world distributions, and supports off-the-shelf use of existing and future pretrained generative models. We further construct a D3Sim dataset to facilitate the training and evaluation of hybrid generation pipelines. Experiments demonstrate that Dreamland outperforms existing baselines with 50.8% improved image quality, 17.9% stronger controllability, and has great potential to enhance embodied agent training. Code and data will be made available.

arxiv情報

著者 Sicheng Mo,Ziyang Leng,Leon Liu,Weizhen Wang,Honglin He,Bolei Zhou
発行日 2025-06-09 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dreamland: Controllable World Creation with Simulator and Generative Models はコメントを受け付けていません

Hidden in plain sight: VLMs overlook their visual representations

要約

言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインターフェイスを提供します。
この可能性を実現するには、ビジョン言語モデル(VLM)が視覚情報と言語情報を正常に統合する必要があります。
私たちの仕事は、VLMを視覚エンコーダーの直接読み取りと比較して、これらのモダリティ全体に統合する能力を理解しています。
一連のビジョン中心のベンチマーク(例:深度推定、対応など)で、VLMは視覚エンコーダーよりも大幅に悪化し、ほぼチャンスのパフォーマンスに低下することがわかります。
VLM全体にわたる一連の分析を通じてこれらの結果を調査します。つまり、1)視力表現の分解、2)タスクプロンプトへの脆性性、および3)タスクの解決における言語モデルの役割。
これらの視覚中心のタスクを実行する際のボトルネックは、この3番目のカテゴリにあることがわかります。
VLMは、モデル全体で簡単にアクセスできる視覚情報を効果的に使用しておらず、LLMに存在する言語の事前に継承します。
私たちの研究は、オープンソースVLMの故障モードの診断に役立ち、VLMS内の視覚的理解の将来の調査に役立つ一連の評価を提示します。

要約(オリジナル)

Language provides a natural interface to specify and evaluate performance on visual tasks. To realize this possibility, vision language models (VLMs) must successfully integrate visual and linguistic information. Our work compares VLMs to a direct readout of their visual encoders to understand their ability to integrate across these modalities. Across a series of vision-centric benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform substantially worse than their visual encoders, dropping to near-chance performance. We investigate these results through a series of analyses across the entire VLM: namely 1) the degradation of vision representations, 2) brittleness to task prompt, and 3) the language model’s role in solving the task. We find that the bottleneck in performing these vision-centric tasks lies in this third category; VLMs are not effectively using visual information easily accessible throughout the entire model, and they inherit the language priors present in the LLM. Our work helps diagnose the failure modes of open-source VLMs, and presents a series of evaluations useful for future investigations into visual understanding within VLMs.

arxiv情報

著者 Stephanie Fu,Tyler Bonnen,Devin Guillory,Trevor Darrell
発行日 2025-06-09 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Hidden in plain sight: VLMs overlook their visual representations はコメントを受け付けていません

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

要約

自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムである自己強制を紹介します。
これは、露出バイアスの長年の問題に対処します。この場合、グラウンドトゥルースコンテキストでトレーニングされたモデルは、推論中に独自の不完全な出力に条件付けられたシーケンスを生成する必要があります。
グラウンドトゥルースコンテキストフレームに基づいて将来のフレームをデノイズする以前の方法とは異なり、トレーニング中にキー値(kV)キャッシングを使用して自己回帰ロールアウトを実行することにより、以前に自己生成された出力で各フレームの生成を強制的に強制します。
この戦略により、従来のフレームごとの目標のみに依存するのではなく、生成されたシーケンス全体の品質を直接評価するビデオレベルでの全体的な損失を介して監督が可能になります。
トレーニング効率を確保するために、計算コストとパフォーマンスのバランスをとる、確率的勾配切り捨て戦略とともに、いくつかのステップ拡散モデルを採用しています。
さらに、効率的な自己回帰ビデオ外挿を可能にするローリングKVキャッシュメカニズムを導入します。
広範な実験は、私たちのアプローチが、単一のGPUでサブセカンドレイテンシでリアルタイムストリーミングビデオ生成を達成し、大幅に遅く非因果的拡散モデルの生成品質を一致させるか、それを上回っていることを示しています。
プロジェクトWebサイト:http://self-forcing.github.io/

要約(オリジナル)

We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame’s generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/

arxiv情報

著者 Xun Huang,Zhengqi Li,Guande He,Mingyuan Zhou,Eli Shechtman
発行日 2025-06-09 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion はコメントを受け付けていません

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

要約

マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインターフェイス(GUI)の自動化に革命をもたらすことで大きな可能性を示しています。
ただし、既存のGUIモデルは、ほとんどエラーのないオフラインの軌跡から学習することに主に依存しているため、反射とエラーの回復機能がありません。
このギャップを埋めるために、専用のトレーニング段階全体で、自己反射とエラーの修正機能をエンドツーエンドのマルチモーダルGUIモデルに明示的に統合する新しいフレームワークであるGui-Reflectionを提案します。GUI固有の事前トレーニング、オフライン監視微調整(SFT)、およびオンラインリフレクションチューニングです。
GUI反射により、人間の注釈を必要とせずに、完全に自動化されたデータ生成および学習プロセスを備えた自己反射行動の出現が可能になります。
具体的には、1)最初にスケーラブルなデータパイプラインを提案して、既存の成功した軌跡から反射およびエラー補正データを自動的に構築します。
既存のGUIモデルは、主に接地とUIの理解能力に焦点を当てていますが、反射志向の能力を明示的に学習および評価するために、Gui-Reflection Task Suiteを提案します。
2)さらに、モバイルデバイス上のGUIモデルのオンライントレーニングとデータ収集のための多様で効率的な環境を構築しました。
3)また、提案された環境を活用する反復オンラインリフレクションチューニングアルゴリズムも提示し、モデルがその反射とエラーの補正能力を継続的に強化できるようにします。
当社のフレームワークは、GUIエージェントに自己反省と修正機能を装備し、すべてのデータ、モデル、環境、およびツールを公開するための、より堅牢で適応性のある、インテリジェントなGUIオートメーションへの道を開きます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have shown great potential in revolutionizing Graphical User Interface (GUI) automation. However, existing GUI models mostly rely on learning from nearly error-free offline trajectories, thus lacking reflection and error recovery capabilities. To bridge this gap, we propose GUI-Reflection, a novel framework that explicitly integrates self-reflection and error correction capabilities into end-to-end multimodal GUI models throughout dedicated training stages: GUI-specific pre-training, offline supervised fine-tuning (SFT), and online reflection tuning. GUI-reflection enables self-reflection behavior emergence with fully automated data generation and learning processes without requiring any human annotation. Specifically, 1) we first propose scalable data pipelines to automatically construct reflection and error correction data from existing successful trajectories. While existing GUI models mainly focus on grounding and UI understanding ability, we propose the GUI-Reflection Task Suite to learn and evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a diverse and efficient environment for online training and data collection of GUI models on mobile devices. 3) We also present an iterative online reflection tuning algorithm leveraging the proposed environment, enabling the model to continuously enhance its reflection and error correction abilities. Our framework equips GUI agents with self-reflection and correction capabilities, paving the way for more robust, adaptable, and intelligent GUI automation, with all data, models, environments, and tools to be released publicly.

arxiv情報

著者 Penghao Wu,Shengnan Ma,Bo Wang,Jiaheng Yu,Lewei Lu,Ziwei Liu
発行日 2025-06-09 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior はコメントを受け付けていません

Play to Generalize: Learning to Reason Through Game Play

要約

マルチモーダル大手言語モデル(MLLM)における一般化可能な推論機能の開発は依然として困難です。
Gameplayが転送可能な認知スキルを促進することを示唆する認知科学の文献に動機付けられていることは、MLLMがアーケードのようなゲームをプレイしてマルチモーダル推論の一般化を開発する新しいトレーニング後のパラダイム、視覚的なゲーム学習、またはVigalを提案します。
具体的には、単純なアーケードのようなゲームでの強化学習(RL)を介して7BパラメーターMLLMをトレーニング後に示します。
Snakeは、Mathvistaなどのマルチモーダル数学ベンチマークやMMMUなどのマルチディシップラインの質問で、RL中に作業するソリューション、方程式、図を見ずに大幅に向上させ、転送可能な推論スキルのキャプチャを示唆しています。
驚くべきことに、私たちのモデルは、マルチモーダル推論ベンチマークのマルチモーダル推論データに合わせて調整された専門モデルを上回り、一般的な視覚ベンチマークでベースモデルのパフォーマンスを維持します。
私たちの調査結果は、新しいトレーニング後のパラダイムを示唆しています。合成、ルールベースのゲームは、MLLMSの一般化可能なマルチモーダル推論能力のロックを解除する制御可能でスケーラブルなテキスト前タスクとして機能します。

要約(オリジナル)

Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model’s performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.

arxiv情報

著者 Yunfei Xie,Yinsong Ma,Shiyi Lan,Alan Yuille,Junfei Xiao,Chen Wei
発行日 2025-06-09 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Play to Generalize: Learning to Reason Through Game Play はコメントを受け付けていません

Vision Transformers Don’t Need Trained Registers

要約

視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。これは、騒々しい注意マップにつながるハイノームトークンの出現です。
複数のモデル(たとえば、Clip、Dinov2)では、ニューロンのまばらなセットが、外れ値トークンにハイノーム活性化を集中させ、不規則な注意パターンを引き起こし、下流の視覚処理を分解することを観察します。
これらの外れ値を削除するための既存のソリューションには、追加の学習されたレジスタトークンでモデルをゼロから再試行することが含まれますが、調査結果を使用して、これらのアーティファクトを緩和するためのトレーニングなしのアプローチを作成します。
発見されたレジスタニューロンからのハイノームの活性化を追加の訓練を受けていないトークンにシフトすることにより、レジスタなしで既に訓練されたモデルに対するレジスタトークンの効果を模倣できます。
私たちの方法は、よりクリーンな注意と機能マップを生み出し、複数の下流の視覚タスクにわたってベースモデル上のパフォーマンスを向上させ、レジスタトークンで明示的にトレーニングされたモデルに匹敵する結果を達成することを実証します。
次に、テスト時間レジスタを既製のビジョン言語モデルに拡張して、解釈可能性を向上させます。
我々の結果は、テスト時間レジスタがテスト時間にレジスタトークンの役割を効果的に取り、それらなしでリリースされた事前に訓練されたモデルにトレーニングなしのソリューションを提供することを示唆しています。

要約(オリジナル)

We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers — the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.

arxiv情報

著者 Nick Jiang,Amil Dravid,Alexei Efros,Yossi Gandelsman
発行日 2025-06-09 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision Transformers Don’t Need Trained Registers はコメントを受け付けていません