Understanding Long Videos with Multimodal Language Models

要約

大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能になり、長距離理解ベンチマークで優れたパフォーマンスを実現しています。
私たちは、基礎となるLLMの広範な世界知識と強力な推論スキルがこの強力なパフォーマンスにどのように影響するかを調査します。
驚くべきことに、LLMベースのアプローチは、ビデオ具体情報が限られている場合でも、ビデオ情報が限られている場合でも、驚くほど良好な精度をもたらす可能性があることがわかります。
これに基づいて、ビデオ固有の情報をLLMベースのフレームワークに注入することを検討します。
オフシェルフビジョンツールを利用して、ビデオから3つのオブジェクト中心の情報モダリティを抽出し、この情報を融合するための媒体として自然言語を活用します。
結果として生じるマルチモーダルビデオ理解(MVU)フレームワークは、複数のビデオ理解ベンチマークにわたって最先端のパフォーマンスを示しています。
また、ロボティクスドメインタスクでの強力なパフォーマンスは、その強力な一般性を確立します。
コード:https://github.com/kahnchana/mvu

要約(オリジナル)

Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we explore injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos, and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Code: https://github.com/kahnchana/mvu

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Kumara Kahatapitiya,Michael S. Ryoo
発行日 2025-06-11 17:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

Efficient Part-level 3D Object Generation via Dual Volume Packing

要約

3Dオブジェクトの生成の最近の進歩により、品質と効率の両方が大幅に改善されました。
ただし、ほとんどの既存のメソッドは、すべてのパーツが融合した単一のメッシュを生成し、個々の部品を編集または操作する機能を制限します。
重要な課題は、異なるオブジェクトにはさまざまな数の部品がある可能性があることです。
これに対処するために、パートレベルの3Dオブジェクト生成のための新しいエンドツーエンドフレームワークを提案します。
単一の入力画像を考えると、この方法では、任意の数の完全かつ意味的に意味のある部分を持つ高品質の3Dオブジェクトを生成します。
すべての部品を2つの補完的なボリュームに整理するデュアルボリュームパッキング戦略を導入し、最終的なオブジェクトに組み立てる完全でインターリーブの部品を作成できるようにします。
実験は、私たちのモデルが以前の画像ベースの部分レベルの生成方法よりも優れた品質、多様性、一般化を達成することを示しています。

要約(オリジナル)

Recent progress in 3D object generation has greatly improved both the quality and efficiency. However, most existing methods generate a single mesh with all parts fused together, which limits the ability to edit or manipulate individual parts. A key challenge is that different objects may have a varying number of parts. To address this, we propose a new end-to-end framework for part-level 3D object generation. Given a single input image, our method generates high-quality 3D objects with an arbitrary number of complete and semantically meaningful parts. We introduce a dual volume packing strategy that organizes all parts into two complementary volumes, allowing for the creation of complete and interleaved parts that assemble into the final object. Experiments show that our model achieves better quality, diversity, and generalization than previous image-based part-level generation methods.

arxiv情報

著者 Jiaxiang Tang,Ruijie Lu,Zhaoshuo Li,Zekun Hao,Xuan Li,Fangyin Wei,Shuran Song,Gang Zeng,Ming-Yu Liu,Tsung-Yi Lin
発行日 2025-06-11 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Part-level 3D Object Generation via Dual Volume Packing はコメントを受け付けていません

ReSim: Reliable World Simulation for Autonomous Driving

要約

幅広いエゴ運転行動の下で、将来の運転シナリオをどのように確実にシミュレートすることができますか?
主に安全な専門家の軌跡で構成される現実世界の駆動データでのみ開発された最近の駆動世界モデルは、そのようなデータではまれな危険または非専門家の行動に従うのに苦労しています。
この制限により、ポリシー評価などのタスクへの適用性が制限されます。
この作業では、運転シミュレーター(Carlaなど)から収集された多様な非専門家データを使用して、実際の人間のデモを豊かにし、この不均一なコーパスで訓練された制御可能な世界モデルを構築することにより、この課題に対処します。
拡散トランスアーキテクチャを備えたビデオジェネレーターから始めて、コンディショニングシグナルを効果的に統合し、予測制御性と忠実度を向上させるためのいくつかの戦略を考案します。
結果のモデルであるResimは、危険な非専門家を含むさまざまなアクションの下で、多様なオープンワールドの運転シナリオの信頼できるシミュレーションを可能にします。
さまざまなアクションを判断するために報酬信号を必要とする高忠実度シミュレーションとアプリケーションのギャップを埋めるために、Resimのシミュレートされた将来からの報酬を推定するVideo2Rrewardモジュールを導入します。
私たちのResimパラダイムは、視覚的忠実度が最大44%高くなり、専門家と非専門家の両方のアクションの制御性が50%以上向上し、NAVSIMの計画と政策選択のパフォーマンスをそれぞれ2%と25%増加させます。

要約(オリジナル)

How can we reliably simulate future driving scenarios under a wide range of ego driving behaviors? Recent driving world models, developed exclusively on real-world driving data composed mainly of safe expert trajectories, struggle to follow hazardous or non-expert behaviors, which are rare in such data. This limitation restricts their applicability to tasks such as policy evaluation. In this work, we address this challenge by enriching real-world human demonstrations with diverse non-expert data collected from a driving simulator (e.g., CARLA), and building a controllable world model trained on this heterogeneous corpus. Starting with a video generator featuring a diffusion transformer architecture, we devise several strategies to effectively integrate conditioning signals and improve prediction controllability and fidelity. The resulting model, ReSim, enables Reliable Simulation of diverse open-world driving scenarios under various actions, including hazardous non-expert ones. To close the gap between high-fidelity simulation and applications that require reward signals to judge different actions, we introduce a Video2Reward module that estimates a reward from ReSim’s simulated future. Our ReSim paradigm achieves up to 44% higher visual fidelity, improves controllability for both expert and non-expert actions by over 50%, and boosts planning and policy selection performance on NAVSIM by 2% and 25%, respectively.

arxiv情報

著者 Jiazhi Yang,Kashyap Chitta,Shenyuan Gao,Long Chen,Yuqian Shao,Xiaosong Jia,Hongyang Li,Andreas Geiger,Xiangyu Yue,Li Chen
発行日 2025-06-11 17:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ReSim: Reliable World Simulation for Autonomous Driving はコメントを受け付けていません

AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

要約

4Dコンテンツ生成の最近の進歩により、注目が高まっていますが、高品質のアニメーション化された3Dモデルの作成は、時空間分布のモデリングと4Dトレーニングデータの希少性の複雑さのために依然として困難です。
この論文では、任意の3Dメッシュの効率的なテキスト駆動型アニメーションを可能にする最初のフィードフォワードフレームワークであるAnimateanymeshを紹介します。
私たちのアプローチは、局所的なトポロジ構造を保存しながら空間的および時間的特徴を解き放つことにより、動的メッシュシーケンスを効果的に圧縮および再構築する新しいDymeshvaeアーキテクチャを活用します。
高品質のテキストコンディショナル生成を可能にするために、圧縮された潜在空間で修正されたフローベースのトレーニング戦略を採用しています。
さらに、テキスト注釈付きの4mを超えるダイナミックメッシュシーケンスを含むDymeshデータセットを提供します。
実験結果は、この方法が数秒で意味的に正確で一時的に一貫性のあるメッシュアニメーションを生成し、品質と効率の両方で既存のアプローチを大幅に上回ることを示しています。
私たちの仕事は、4Dコンテンツの作成をよりアクセスしやすく実用的にするための大きな前進を示しています。
すべてのデータ、コード、モデルはオープンリリースされます。

要約(オリジナル)

Recent advances in 4D content generation have attracted increasing attention, yet creating high-quality animated 3D models remains challenging due to the complexity of modeling spatio-temporal distributions and the scarcity of 4D training data. In this paper, we present AnimateAnyMesh, the first feed-forward framework that enables efficient text-driven animation of arbitrary 3D meshes. Our approach leverages a novel DyMeshVAE architecture that effectively compresses and reconstructs dynamic mesh sequences by disentangling spatial and temporal features while preserving local topological structures. To enable high-quality text-conditional generation, we employ a Rectified Flow-based training strategy in the compressed latent space. Additionally, we contribute the DyMesh Dataset, containing over 4M diverse dynamic mesh sequences with text annotations. Experimental results demonstrate that our method generates semantically accurate and temporally coherent mesh animations in a few seconds, significantly outperforming existing approaches in both quality and efficiency. Our work marks a substantial step forward in making 4D content creation more accessible and practical. All the data, code, and models will be open-released.

arxiv情報

著者 Zijie Wu,Chaohui Yu,Fan Wang,Xiang Bai
発行日 2025-06-11 17:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation はコメントを受け付けていません

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

要約

現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶことです。
このペーパーでは、インターネット規模のビデオデータと少量の相互作用データ(ロボットの軌跡)を組み合わせた自己監督のアプローチを調査し、物理的な世界で理解、予測、計画できるモデルを開発します。
最初に、100万時間以上のインターネットビデオで構成されるビデオおよび画像データセットに、アクションフリーの共同埋め込み予測予測アーキテクチャV-JEPA 2を事前にトレーニングします。
V-JEPA 2は、以前のタスク固有のモデルを上回る、動きの理解(77.3 TOP-1のV2のTOP-1精度)と最先端のパフォーマンス(Epic-Kitchens-100の39.7 Recall-5)を達成します。
さらに、V-JEPA 2を大きな言語モデルに合わせた後、80億パラメータースケールで複数のビデオ質問回答タスクで最先端のパフォーマンスを示します(例:PerceptionTestで84.0、Tempcompassで76.9)。
最後に、DROIDデータセットから62時間未満のラベルのないロボットビデオを使用して、潜在的なアクションコンディショニングされた世界モデルであるV-JEPA 2-ACをトレーニング後にトレーニング後にロボット計画タスクに自己監視学習を適用できるかを示します。
2つの異なるラボでFranka ArmsにV-JEPA 2-ACゼロショットを展開し、画像目標を使用して計画を使用してオブジェクトのピッキングと配置を有効にします。
特に、これは、これらの環境のロボットからデータを収集することなく、タスク固有のトレーニングや報酬なしで達成されます。
この作業は、Webスケールのデータと少量のロボット相互作用データからの自己監視の学習が、物理的な世界で計画できる世界モデルをどのように生成できるかを示しています。

要約(オリジナル)

A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.

arxiv情報

著者 Mido Assran,Adrien Bardes,David Fan,Quentin Garrido,Russell Howes,Mojtaba,Komeili,Matthew Muckley,Ammar Rizvi,Claire Roberts,Koustuv Sinha,Artem Zholus,Sergio Arnaud,Abha Gejji,Ada Martin,Francois Robert Hogan,Daniel Dugas,Piotr Bojanowski,Vasil Khalidov,Patrick Labatut,Francisco Massa,Marc Szafraniec,Kapil Krishnakumar,Yong Li,Xiaodong Ma,Sarath Chandar,Franziska Meier,Yann LeCun,Michael Rabbat,Nicolas Ballas
発行日 2025-06-11 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning はコメントを受け付けていません

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

要約

豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例えば、テキスト、画像、オーディオは、近年顕著な進歩を達成しています。
ただし、ほとんどの既存の方法は、単一の主題をアニメーション化し、グローバルな方法で条件を注入することができ、複数の概念が豊富な人間の相互作用と人間とオブジェクトの相互作用を備えた同じビデオに表示されるシナリオを無視できます。
このようなグローバルな仮定は、人間やオブジェクトを含む複数の概念の正確および同一性の制御を防ぐため、アプリケーションを妨げます。
この作業では、単一体の仮定を廃棄し、モダリティから各アイデンティティの空間的フットプリントへの条件の強力で領域固有の結合を強制する新しいフレームワークを導入します。
複数の概念の参照画像が与えられた場合、私たちの方法は、マスク予測子を活用して、除去されたビデオと各参照の外観との間の外観のキューを一致させることにより、レイアウト情報を自動的に推測できます。
さらに、レイアウトに沿ったモダリティマッチングを反復的に確保するために、対応する領域にローカルオーディオ条件を注入します。
この設計により、高品質の制御可能なマルチコンセプトヒューマン中心のビデオが可能になります。
経験的結果とアブレーション研究は、暗黙の対応物やその他の既存の方法と比較して、マルチモーダル条件に対する明示的なレイアウト制御の有効性を検証します。

要約(オリジナル)

End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity’s spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.

arxiv情報

著者 Zhenzhi Wang,Jiaqi Yang,Jianwen Jiang,Chao Liang,Gaojie Lin,Zerong Zheng,Ceyuan Yang,Dahua Lin
発行日 2025-06-11 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD | InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions はコメントを受け付けていません

A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs

要約

ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマークは、表面的な視覚またはテキストの手がかりに基づいたショートカットソリューションの存在により、インフレを獲得しやすくなります。
このペーパーでは、ビデオ言語モデルの物理的理解を評価するためのシンプルなショートカット対応ビデオQAベンチマークである最小限のビデオペア(MVP)ベンチマークを導入することにより、モデルのパフォーマンスを正確に評価する際の課題を軽減します。
ベンチマークは、物理的な世界の理解に焦点を当てた55K高品質の多肢選択ビデオQAの例で構成されています。
例は、9つのビデオデータソースからキュレーションされており、一人称のエゴセントリックビデオおよびエクソセントリックなビデオ、ロボット相互作用データ、認知科学の直感的な物理ベンチマークにまたがっています。
表面的な視覚的またはテキストのキューとバイアスに依存するショートカットソリューションを緩和するために、MVPの各サンプルには最小変化のペアがあります。
質問に正しく答えるには、モデルは最小変化のペアの両方の例に対して正しい答えを提供する必要があります。
そのため、視覚的またはテキストのバイアスのみに依存するモデルは、ランダムなパフォーマンス以下で達成されます。
MVPの人間のパフォーマンスは92.9 \%ですが、最高のオープンソースの最先端のビデオ言語モデルは、25 \%でのランダムパフォーマンスと比較して40.2 \%を達成します。

要約(オリジナル)

Existing benchmarks for assessing the spatio-temporal understanding and reasoning abilities of video language models are susceptible to score inflation due to the presence of shortcut solutions based on superficial visual or textual cues. This paper mitigates the challenges in accurately assessing model performance by introducing the Minimal Video Pairs (MVP) benchmark, a simple shortcut-aware video QA benchmark for assessing the physical understanding of video language models. The benchmark is comprised of 55K high-quality multiple-choice video QA examples focusing on physical world understanding. Examples are curated from nine video data sources, spanning first-person egocentric and exocentric videos, robotic interaction data, and cognitive science intuitive physics benchmarks. To mitigate shortcut solutions that rely on superficial visual or textual cues and biases, each sample in MVP has a minimal-change pair — a visually similar video accompanied by an identical question but an opposing answer. To answer a question correctly, a model must provide correct answers for both examples in the minimal-change pair; as such, models that solely rely on visual or textual biases would achieve below random performance. Human performance on MVP is 92.9\%, while the best open-source state-of-the-art video-language model achieves 40.2\% compared to random performance at 25\%.

arxiv情報

著者 Benno Krojer,Mojtaba Komeili,Candace Ross,Quentin Garrido,Koustuv Sinha,Nicolas Ballas,Mahmoud Assran
発行日 2025-06-11 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs はコメントを受け付けていません

EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits

要約

生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まっています。
この傾向は、テキスト誘導編集を検証し、その品質を評価するための包括的なフレームワークの必要性を強調しています。
このニーズに対処するために、編集のために広範なテンプレートを使用して収集された人間の注釈に基づいて、テキスト誘導画像編集の評価のための新しいベンチマークであるEditinspectorを紹介します。
編集者を活用して、精度、アーティファクト検出、視覚品質、画像シーンとのシームレスな統合、常識への順守、編集誘導の変化を説明する能力など、さまざまな次元にわたる編集を評価する際に、最先端(SOTA)ビジョンと言語モデルのパフォーマンスを評価します。
私たちの調査結果は、現在のモデルが編集を包括的に頻繁に幻覚にするのに苦労していることを示しています。
これらの課題に対処するために、アーティファクト検出と差分キャプション生成の両方でSOTAモデルを上回る2つの新しい方法を提案します。

要約(オリジナル)

Text-guided image editing, fueled by recent advancements in generative AI, is becoming increasingly widespread. This trend highlights the need for a comprehensive framework to verify text-guided edits and assess their quality. To address this need, we introduce EditInspector, a novel benchmark for evaluation of text-guided image edits, based on human annotations collected using an extensive template for edit verification. We leverage EditInspector to evaluate the performance of state-of-the-art (SoTA) vision and language models in assessing edits across various dimensions, including accuracy, artifact detection, visual quality, seamless integration with the image scene, adherence to common sense, and the ability to describe edit-induced changes. Our findings indicate that current models struggle to evaluate edits comprehensively and frequently hallucinate when describing the changes. To address these challenges, we propose two novel methods that outperform SoTA models in both artifact detection and difference caption generation.

arxiv情報

著者 Ron Yosef,Moran Yanuka,Yonatan Bitton,Dani Lischinski
発行日 2025-06-11 17:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits はコメントを受け付けていません

Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes

要約

次の質問をすることにより、3Dシーンの再構成をインタラクティブに再構築する問題を調査します。シーンと物理的に相互作用する人間の手の音を予測できますか?
まず、3Dシーン内で手を使用して人間の操作オブジェクトのビデオを録画します。
次に、これらのアクションサウンドペアを使用して、修正フローモデルをトレーニングして、3Dハンド軌跡を対応するオーディオにマッピングします。
テスト時に、ユーザーは、対応するサウンドを推定するために、ハンドポーズのシーケンスとしてパラメーター化された他のアクションのモデルを照会できます。
私たちの実験では、生成された音が材料の特性とアクションを正確に伝え、それらはしばしば人間のオブザーバーにとって実際の音と見分けがつかないことがわかります。
プロジェクトページ:https://www.yimingdou.com/hearing_hands/

要約(オリジナル)

We study the problem of making 3D scene reconstructions interactive by asking the following question: can we predict the sounds of human hands physically interacting with a scene? First, we record a video of a human manipulating objects within a 3D scene using their hands. We then use these action-sound pairs to train a rectified flow model to map 3D hand trajectories to their corresponding audio. At test time, a user can query the model for other actions, parameterized as sequences of hand poses, to estimate their corresponding sounds. In our experiments, we find that our generated sounds accurately convey material properties and actions, and that they are often indistinguishable to human observers from real sounds. Project page: https://www.yimingdou.com/hearing_hands/

arxiv情報

著者 Yiming Dou,Wonseok Oh,Yuqing Luo,Antonio Loquercio,Andrew Owens
発行日 2025-06-11 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes はコメントを受け付けていません

Spectral Image Tokenizer

要約

画像トークナーは、画像を離散トークンのシーケンスにマッピングし、自己回帰トランスベースの画像生成の重要なコンポーネントです。
トークンは通常、入力画像の空間位置に関連付けられており、ラスタースキャン順序で配置されています。
このホワイトペーパーでは、ディスクリートウェーブレット変換(DWT)から取得した代わりに画像スペクトルをトークン化することを提案します。そのため、トークンのシーケンスは粗から洗練された方法で画像を表します。
私たちのトークナイザーはいくつかの利点をもたらします。1)自然な画像は高周波数でより圧縮可能であることをレバレッジします。2)再訓練なしで異なる解像度の画像を取得して再構築できます。
画像の粗いバージョンを再構築する5)自動回帰モデルを画像アップサンプリングに使用できるようにします。
トークン剤の再構成メトリック、マルチスケールの画像生成、テキストガイド付き画像アップサンプリングと編集を評価します。

要約(オリジナル)

Image tokenizers map images to sequences of discrete tokens, and are a crucial component of autoregressive transformer-based image generation. The tokens are typically associated with spatial locations in the input image, arranged in raster scan order, which is not ideal for autoregressive modeling. In this paper, we propose to tokenize the image spectrum instead, obtained from a discrete wavelet transform (DWT), such that the sequence of tokens represents the image in a coarse-to-fine fashion. Our tokenizer brings several advantages: 1) it leverages that natural images are more compressible at high frequencies, 2) it can take and reconstruct images of different resolutions without retraining, 3) it improves the conditioning for next-token prediction — instead of conditioning on a partial line-by-line reconstruction of the image, it takes a coarse reconstruction of the full image, 4) it enables partial decoding where the first few generated tokens can reconstruct a coarse version of the image, 5) it enables autoregressive models to be used for image upsampling. We evaluate the tokenizer reconstruction metrics as well as multiscale image generation, text-guided image upsampling and editing.

arxiv情報

著者 Carlos Esteves,Mohammed Suhail,Ameesh Makadia
発行日 2025-06-11 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Spectral Image Tokenizer はコメントを受け付けていません