Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

要約

単眼深度推定(MDE)モデルは、近年、大きな進歩を遂げています。
多くのMDEモデルは、単眼画像からアフィン不変の相対深さを予測することを目指していますが、最近の大規模トレーニングとビジョンファンデーションモデルの開発により、メートル法(絶対)深さの合理的な推定が可能になります。
ただし、幾何学的視力課題、特に相対的なポーズ推定のこれらの予測を効果的に活用することは、比較的調査中であり続けています。
深さは、クロスビューイメージのアライメントに豊富な制約を提供しますが、単眼の深さのプライアーからの固有のノイズと曖昧さは、古典的なキーポイントベースのソリューションを改善するための実用的な課題を提示します。
このホワイトペーパーでは、比較的独立したアフィン(スケールとシフト)のあいまいさを明示的に説明する相対的なポーズ推定のために3つのソルバーを開発し、較正された条件と非調整条件の両方をカバーしています。
さらに、提案されたソルバーと古典的なポイントベースのソルバーとエピポーラの制約を組み合わせたハイブリッド推定パイプラインを提案します。
アフィン補正モデリングは、相対的な深さのプライアーだけでなく、驚くべきことに「メトリック」のものにも有益であることがわかります。
複数のデータセットにわたる結果は、キャリブレーションされたセットアップと非調整セットアップの両方で、古典的なキーポイントベースのベースラインとPNPベースのソリューションに対するアプローチの大幅な改善を示しています。
また、この方法は、さまざまな機能マッチャーやMDEモデルで一貫して改善され、両方のモジュールのごく最近の進歩からさらに利益を得ることができることも示しています。
コードはhttps://github.com/markyu98/madposeで入手できます。

要約(オリジナル)

Monocular depth estimation (MDE) models have undergone significant advancements over recent years. Many MDE models aim to predict affine-invariant relative depth from monocular images, while recent developments in large-scale training and vision foundation models enable reasonable estimation of metric (absolute) depth. However, effectively leveraging these predictions for geometric vision tasks, in particular relative pose estimation, remains relatively under explored. While depths provide rich constraints for cross-view image alignment, the intrinsic noise and ambiguity from the monocular depth priors present practical challenges to improving upon classic keypoint-based solutions. In this paper, we develop three solvers for relative pose estimation that explicitly account for independent affine (scale and shift) ambiguities, covering both calibrated and uncalibrated conditions. We further propose a hybrid estimation pipeline that combines our proposed solvers with classic point-based solvers and epipolar constraints. We find that the affine correction modeling is beneficial to not only the relative depth priors but also, surprisingly, the ‘metric’ ones. Results across multiple datasets demonstrate large improvements of our approach over classic keypoint-based baselines and PnP-based solutions, under both calibrated and uncalibrated setups. We also show that our method improves consistently with different feature matchers and MDE models, and can further benefit from very recent advances on both modules. Code is available at https://github.com/MarkYu98/madpose.

arxiv情報

著者 Yifan Yu,Shaohui Liu,Rémi Pautrat,Marc Pollefeys,Viktor Larsson
発行日 2025-03-24 17:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Relative Pose Estimation through Affine Corrections of Monocular Depth Priors はコメントを受け付けていません

Building Blocks for Robust and Effective Semi-Supervised Real-World Object Detection

要約

擬似標識に基づく半監視オブジェクト検出(SSOD)は、ラベル付きデータと非標識データの両方を効果的に活用することにより、大きな標識データセットへの依存性を大幅に減少させます。
ただし、SSODの実際のアプリケーションは、クラスの不均衡、ラベルノイズ、ラベル付けエラーなど、多くの場合、重大な課題に直面しています。
実際の条件下でSSODの詳細な分析を提示し、ラベルの品質と量の間の擬似標識と主要なトレードオフの原因を明らかにします。
調査結果に基づいて、SSODフレームワークにシームレスに統合できる4つのビルディングブロックを提案します。
レアクラスコラージュ(RCC):レアオブジェクトのコラージュを作成することにより、レアクラスの表現を強化するデータ増強方法。
レアクラスフォーカス(RCF):トレーニング中にすべてのクラスのよりバランスの取れた表現を保証する層状バッチサンプリング戦略。
グラウンドトゥルースラベル補正(GLC):教師モデルの予測の一貫性を活用することにより、偽、行方不明、および騒々しいグラウンドトゥルースラベルを識別および修正するラベルの改良方法。
擬似ラベル選択(PLS):クラスの希少性を説明しながら欠落検出率を推定する新しいメトリックによって導かれた、低品質の擬似標識画像を削除する選択方法。
自律運転データセットに関する包括的な実験を通じて、方法を検証し、SSODパフォーマンスが最大6%増加します。
全体として、私たちの調査と斬新で、データ中心で、広く適用可能なビルディングブロックにより、複雑で実世界のシナリオで堅牢で効果的なSSODが可能になります。
コードはhttps://mos-ks.github.io/publicationsで入手できます。

要約(オリジナル)

Semi-supervised object detection (SSOD) based on pseudo-labeling significantly reduces dependence on large labeled datasets by effectively leveraging both labeled and unlabeled data. However, real-world applications of SSOD often face critical challenges, including class imbalance, label noise, and labeling errors. We present an in-depth analysis of SSOD under real-world conditions, uncovering causes of suboptimal pseudo-labeling and key trade-offs between label quality and quantity. Based on our findings, we propose four building blocks that can be seamlessly integrated into an SSOD framework. Rare Class Collage (RCC): a data augmentation method that enhances the representation of rare classes by creating collages of rare objects. Rare Class Focus (RCF): a stratified batch sampling strategy that ensures a more balanced representation of all classes during training. Ground Truth Label Correction (GLC): a label refinement method that identifies and corrects false, missing, and noisy ground truth labels by leveraging the consistency of teacher model predictions. Pseudo-Label Selection (PLS): a selection method for removing low-quality pseudo-labeled images, guided by a novel metric estimating the missing detection rate while accounting for class rarity. We validate our methods through comprehensive experiments on autonomous driving datasets, resulting in up to 6% increase in SSOD performance. Overall, our investigation and novel, data-centric, and broadly applicable building blocks enable robust and effective SSOD in complex, real-world scenarios. Code is available at https://mos-ks.github.io/publications.

arxiv情報

著者 Moussa Kassem Sbeyti,Nadja Klein,Azarm Nowzad,Fikret Sivrikaya,Sahin Albayrak
発行日 2025-03-24 17:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Building Blocks for Robust and Effective Semi-Supervised Real-World Object Detection はコメントを受け付けていません

Zero-Shot Styled Text Image Generation, but Make It Autoregressive

要約

スタイルの手書きのテキスト生成(HTG)は最近、コンピュータービジョンおよびドキュメント分析コミュニティから注目を集めました。このコミュニティは、有望な結果を達成したGanまたは拡散ベースのいずれかのいくつかのソリューションを開発しました。
それにもかかわらず、これらの戦略は、特に最大出力の長さとトレーニング効率の点で、新しいスタイルに一般化し、技術的な制約を持つことができません。
これらの制限を克服するために、この作業では、Emuruと呼ばれるテキスト画像生成の新しいフレームワークを提案します。
私たちのアプローチは、自動回帰トランスと組み合わせた強力なテキスト画像表現モデル(変分自動エンコーダー)を活用しています。
私たちのアプローチにより、特定のフォントや手書きスタイルなど、テキストコンテンツやスタイルの例に条件付けられたスタイルのテキスト画像の生成が可能になります。
モデルは、100,000を超えるタイプライターと書道フォントでレンダリングされた英語のテキストの多様で合成データセットでのみトレーニングします。これにより、目に見えないスタイル(フォントとユーザーの手書きの両方)をゼロショットで再現できます。
私たちの知る限り、EmuruはHTGの最初の自己回帰モデルであり、新しいスタイルへの一般化のために特別に設計された最初の自己回帰モデルです。
さらに、私たちのモデルは、バックグラウンドアーティファクトのない画像を生成します。これは、ダウンストリームアプリケーションに使いやすいです。
タイプライターと手書きの両方のテキスト画像生成シナリオの両方の広範な評価は、私たちのアプローチの有効性を示しています。

要約(オリジナル)

Styled Handwritten Text Generation (HTG) has recently received attention from the computer vision and document analysis communities, which have developed several solutions, either GAN- or diffusion-based, that achieved promising results. Nonetheless, these strategies fail to generalize to novel styles and have technical constraints, particularly in terms of maximum output length and training efficiency. To overcome these limitations, in this work, we propose a novel framework for text image generation, dubbed Emuru. Our approach leverages a powerful text image representation model (a variational autoencoder) combined with an autoregressive Transformer. Our approach enables the generation of styled text images conditioned on textual content and style examples, such as specific fonts or handwriting styles. We train our model solely on a diverse, synthetic dataset of English text rendered in over 100,000 typewritten and calligraphy fonts, which gives it the capability to reproduce unseen styles (both fonts and users’ handwriting) in zero-shot. To the best of our knowledge, Emuru is the first autoregressive model for HTG, and the first designed specifically for generalization to novel styles. Moreover, our model generates images without background artifacts, which are easier to use for downstream applications. Extensive evaluation on both typewritten and handwritten, any-length text image generation scenarios demonstrates the effectiveness of our approach.

arxiv情報

著者 Vittorio Pippi,Fabio Quattrini,Silvia Cascianelli,Alessio Tonioni,Rita Cucchiara
発行日 2025-03-24 17:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Zero-Shot Styled Text Image Generation, but Make It Autoregressive はコメントを受け付けていません

Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

要約

大規模なビデオ言語モデル(LVLMS)の最近の進歩は、マルチモーダルの理解の可能性を強調していますが、ビデオコンテキストでの事実に基づいた根拠を評価することは、重要な未解決の課題のままです。
このギャップに対処するために、LVLMSの事実評価に合わせた最初の包括的なベンチマークであるビデオSimpleQAを紹介します。
私たちの作品は、次の主要な機能を通じて既存のビデオベンチマークと区別されます。1)知識が必要です。明示的な物語を超えた外部知識の統合を要求する。
2)事実を求める質問:主観的な解釈を避け、目的、議論の余地のない出来事または関係をターゲットにします。
3)決定的および短い形式の回答:回答は、短い形式で明確で明確に修正され、最小限のスコアリングの差異を伴うLLM-A-A-A-Judgeフレームワークを通じて自動化された評価を可能にします。
4)外部ソースの検証:すべての注釈は、信頼性を確保するために、権威ある外部参照に対して厳密な検証を受けます。
5)必要な時間的推論:注釈付きの質問タイプには、静的な単一フレームの理解と動的な時間的推論の両方が含まれ、長いコンテキスト依存性の下でのLVLMSの事実性を明示的に評価します。
41の最先端のLVLMSを広範囲に評価し、次のように重要な調査結果を要約します。1)現在のLVLMSは、特にオープンソースモデルの場合、実際には顕著な欠陥を示します。
最高のパフォーマンスモデルGemini-1.5-Proは、54.4%のFスコアを達成します。
2)テスト時間計算パラダイムは、重要でないパフォーマンスの向上を示し、事後計算により事実性を高めるための基本的な制約を明らかにします。
3)検索された生成は、追加の推論時間オーバーヘッドを犠牲にして一貫した改善を示し、重要な効率パフォーマンスのトレードオフを提示します。

要約(オリジナル)

Recent advancements in Large Video Language Models (LVLMs) have highlighted their potential for multi-modal understanding, yet evaluating their factual grounding in video contexts remains a critical unsolved challenge. To address this gap, we introduce Video SimpleQA, the first comprehensive benchmark tailored for factuality evaluation of LVLMs. Our work distinguishes from existing video benchmarks through the following key features: 1) Knowledge required: demanding integration of external knowledge beyond the explicit narrative; 2) Fact-seeking question: targeting objective, undisputed events or relationships, avoiding subjective interpretation; 3) Definitive & short-form answer: Answers are crafted as unambiguous and definitively correct in a short format, enabling automated evaluation through LLM-as-a-judge frameworks with minimal scoring variance; 4) External-source verified: All annotations undergo rigorous validation against authoritative external references to ensure the reliability; 5) Temporal reasoning required: The annotated question types encompass both static single-frame understanding and dynamic temporal reasoning, explicitly evaluating LVLMs factuality under the long-context dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize key findings as follows: 1) Current LVLMs exhibit notable deficiencies in factual adherence, particularly for open-source models. The best-performing model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute paradigms show insignificant performance gains, revealing fundamental constraints for enhancing factuality through post-hoc computation; 3) Retrieval-Augmented Generation demonstrates consistent improvements at the cost of additional inference time overhead, presenting a critical efficiency-performance trade-off.

arxiv情報

著者 Meng Cao,Pengfei Hu,Yingyao Wang,Jihao Gu,Haoran Tang,Haoze Zhao,Jiahua Dong,Wangbo Yu,Ge Zhang,Ian Reid,Xiaodan Liang
発行日 2025-03-24 17:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models はコメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

要約

現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクする機能がなく、出力を検証するのが難しくなります。
最近のアプローチはいくつかの接地機能を提供しますが、複数の参照にわたってオブジェクトのアイデンティティを追跡したり、アクションとオブジェクトの両方を同時に接地することはできません。
一貫したオブジェクト参照追跡とアクションオブジェクトのリンクを可能にする新しいIDベースの接地システムを提案し、77ムービーの52,016画像を含むデータセットを提示し、344の人間が解決し、52,016が自動的に生成されたキャプションを備えています。
各キャプションは、対応するオブジェクトにアクションをリンクしながらオブジェクトのIDを維持するタグシステムを使用して、検出されたオブジェクト(132クラス)とアクション(51クラス)に接地されています。
私たちのアプローチは、参照追跡、明示的なアクションオブジェクトのリンク、およびK-Meansクラスタリングによる背景要素のセグメンテーションのための永続的なオブジェクトIDを特徴としています。
Gmeteorを提案します。これは、キャプションの品質と接地精度を組み合わせたメトリックを提案し、Pixtral-12bを微調整することによりベースラインパフォーマンスを確立します。
人間の評価は、コヒーレントオブジェクト参照を使用して検証可能な説明を作成する際のアプローチの有効性を示しています。

要約(オリジナル)

Current image captioning systems lack the ability to link descriptive text to specific visual elements, making their outputs difficult to verify. While recent approaches offer some grounding capabilities, they cannot track object identities across multiple references or ground both actions and objects simultaneously. We propose a novel ID-based grounding system that enables consistent object reference tracking and action-object linking, and present GroundCap, a dataset containing 52,016 images from 77 movies, with 344 human-annotated and 52,016 automatically generated captions. Each caption is grounded on detected objects (132 classes) and actions (51 classes) using a tag system that maintains object identity while linking actions to the corresponding objects. Our approach features persistent object IDs for reference tracking, explicit action-object linking, and segmentation of background elements through K-means clustering. We propose gMETEOR, a metric combining caption quality with grounding accuracy, and establish baseline performance by fine-tuning Pixtral-12B. Human evaluation demonstrates our approach’s effectiveness in producing verifiable descriptions with coherent object references.

arxiv情報

著者 Daniel A. P. Oliveira,Lourenço Teodoro,David Martins de Matos
発行日 2025-03-24 17:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.10 | GroundCap: A Visually Grounded Image Captioning Dataset はコメントを受け付けていません

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

要約

事前に訓練されたVision Foundationモデル(VFM)は、幅広いアプリケーションに対して強力な視覚表現を提供します。
このホワイトペーパーでは、マルチモーダルな方法で継続的に訓練するVFMを継続的に事前に訓練し、さまざまなサイズの視覚入力を簡単に処理し、元のトレーニングプロセスに関係なく言語表現とより整合する視覚表現を生成できます。
この目的のために、慎重に設計されたマルチモーダルプリトレーニングパイプラインであるCompを紹介します。
Compは、ネイティブ解像度の継続的なトレーニングをサポートするために継続的な回転位置埋め込みを使用し、言語プロトタイプを介して視覚的機能とテキスト機能の間のアライメント損失をサポートし、マルチモーダル表現を調整します。
3段階のトレーニングにより、VFMはマルチモーダル理解だけでなく、分類やセグメンテーションなどの他の下流タスクでも顕著な改善を実現します。
驚くべきことに、COMP-SIGLIPは、0.5B LLMでChartqaで66.7、DOCVQAで75.9のスコアを達成し、ImagENET-1Kで87.4%の精度を維持し、凍結チャンク評価下でADE20Kで49.5 MIOUを維持します。

要約(オリジナル)

Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.

arxiv情報

著者 Yitong Chen,Lingchen Meng,Wujian Peng,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-03-24 17:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoMP: Continual Multimodal Pre-training for Vision Foundation Models はコメントを受け付けていません

SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction

要約

将来のビデオフレームを予測することは意思決定システムに不可欠ですが、RGBフレームだけでは、現実世界の根底にある複雑さを完全にキャプチャするために必要な情報が不足しています。
この制限に対処するために、補完的なデータモダリティを組み込んだ同期ビデオ予測(SyncVP)のマルチモーダルフレームワークを提案し、将来の予測の豊かさと精度を高めます。
SYNCVPは、事前に訓練されたモダリティ固有の拡散モデルに基づいて構築され、効率的な時空間交差アテナテンションモジュールを導入して、モダリティ全体で効果的な情報共有を可能にします。
深さを追加のモダリティとして使用して、CityscapesやBairなどの標準のベンチマークデータセットでSyncVPを評価します。
さらに、セマンティック情報を備えたシンシアの他のモダリティと気候データを持つERA5ランドへの一般化を実証します。
特に、SyncVPは、1つのモダリティのみが存在するシナリオであっても、最先端のパフォーマンスを実現し、幅広いアプリケーションの堅牢性と可能性を示しています。

要約(オリジナル)

Predicting future video frames is essential for decision-making systems, yet RGB frames alone often lack the information needed to fully capture the underlying complexities of the real world. To address this limitation, we propose a multi-modal framework for Synchronous Video Prediction (SyncVP) that incorporates complementary data modalities, enhancing the richness and accuracy of future predictions. SyncVP builds on pre-trained modality-specific diffusion models and introduces an efficient spatio-temporal cross-attention module to enable effective information sharing across modalities. We evaluate SyncVP on standard benchmark datasets, such as Cityscapes and BAIR, using depth as an additional modality. We furthermore demonstrate its generalization to other modalities on SYNTHIA with semantic information and ERA5-Land with climate data. Notably, SyncVP achieves state-of-the-art performance, even in scenarios where only one modality is present, demonstrating its robustness and potential for a wide range of applications.

arxiv情報

著者 Enrico Pallotta,Sina Mokhtarzadeh Azar,Shuai Li,Olga Zatsarynna,Juergen Gall
発行日 2025-03-24 17:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction はコメントを受け付けていません

AdaWorld: Learning Adaptable World Models with Latent Actions

要約

世界モデルは、アクション制御された予測モデルを学ぶことを目指しており、インテリジェントエージェントの開発に不可欠であることが証明されています。
ただし、ほとんどの既存の世界モデルは、実質的なアクションラベルデータとコストのかかるトレーニングに大きく依存しているため、限られた相互作用を通じて異種のアクションを備えた新しい環境に適応することが困難です。
この制限は、より広いドメイン全体の適用性を妨げる可能性があります。
この課題を克服するために、効率的な適応を可能にする革新的な世界モデル学習アプローチであるAdaworldを提案します。
重要なアイデアは、世界モデルの事前削除中にアクション情報を組み込むことです。
これは、ビデオから潜在的なアクションを自己監視する方法で抽出し、フレーム間で最も重要な遷移をキャプチャすることによって達成されます。
次に、これらの潜在的なアクションを条件とする自己回帰の世界モデルを開発します。
この学習パラダイムは、高度に適応性のある世界モデルを可能にし、限られた相互作用や微調整でも効率的な転送と新しい行動の学習を促進します。
複数の環境にわたる当社の包括的な実験は、Adaworldがシミュレーション品質と視覚計画の両方で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

World models aim to learn action-controlled prediction models and have proven essential for the development of intelligent agents. However, most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions. This limitation can hinder their applicability across broader domains. To overcome this challenge, we propose AdaWorld, an innovative world model learning approach that enables efficient adaptation. The key idea is to incorporate action information during the pretraining of world models. This is achieved by extracting latent actions from videos in a self-supervised manner, capturing the most critical transitions between frames. We then develop an autoregressive world model that conditions on these latent actions. This learning paradigm enables highly adaptable world models, facilitating efficient transfer and learning of new actions even with limited interactions and finetuning. Our comprehensive experiments across multiple environments demonstrate that AdaWorld achieves superior performance in both simulation quality and visual planning.

arxiv情報

著者 Shenyuan Gao,Siyuan Zhou,Yilun Du,Jun Zhang,Chuang Gan
発行日 2025-03-24 17:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AdaWorld: Learning Adaptable World Models with Latent Actions はコメントを受け付けていません

Training-free Diffusion Acceleration with Bottleneck Sampling

要約

拡散モデルは、視覚コンテンツの生成において顕著な機能を実証していますが、推論中の計算コストが高いため、展開するのが難しいままです。
この計算上の負担は、主に画像またはビデオ解像度に関する自己触たちの二次複雑さから生じます。
既存の加速方法はしばしば出力の品質を損なうか、費用のかかる再訓練を必要としますが、ほとんどの拡散モデルは低解像度で事前に訓練されており、パフォーマンスを低下させることなく、より効率的な推論のためにこれらの低解像度のプライアーを活用する機会を提示していることがわかります。
この作業では、ボトルネックサンプリングを導入します。ボトルネックサンプリングは、出力の忠実度を維持しながら計算オーバーヘッドを削減するために低解像度のプライアーを活用するトレーニングフリーのフレームワークです。
ボトルネックのサンプリングは、高位の高さの除去ワークフローに従います。中間ステップで低解像度で動作しながら、初期段階と最終段階で高解像度の除去を実行します。
エイリアシングとぼやけのアーティファクトを緩和するために、解像度の遷移ポイントをさらに改良し、各段階で除去タイムステップを適応的にシフトします。
画像生成タスクとビデオ生成タスクの両方でボトルネックのサンプリングを評価します。広範な実験では、画像生成の場合は最大3 $ \ Times $、ビデオ生成で2.5 $ \ Times $だけであることが示されています。
コードは、https://github.com/tyfeld/bottleneck-samplingで入手できます

要約(オリジナル)

Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3$\times$ for image generation and 2.5$\times$ for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics. Code is available at: https://github.com/tyfeld/Bottleneck-Sampling

arxiv情報

著者 Ye Tian,Xin Xia,Yuxi Ren,Shanchuan Lin,Xing Wang,Xuefeng Xiao,Yunhai Tong,Ling Yang,Bin Cui
発行日 2025-03-24 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training-free Diffusion Acceleration with Bottleneck Sampling はコメントを受け付けていません

Video-T1: Test-Time Scaling for Video Generation

要約

トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能により、ビデオ生成はデジタル作成において印象的な結果を達成し、ユーザーがさまざまなドメインで創造性を表現できるようになりました。
最近、大規模な言語モデル(LLMS)の研究者は、スケーリングをテスト時間に拡大しました。
高価なトレーニングコストを通じてビデオファンデーションモデルをスケーリングする代わりに、ビデオ生成のテスト時間スケーリング(TTS)の力を調査し、質問に答えることを目指しています。ビデオ生成モデルが非些細な量の推論時間計算を使用することが許可されている場合、挑戦的なテキストプロンプトを考えると生成品質を改善できます。
この作業では、ビデオ生成のテスト時間スケーリングを検索問題として再解釈して、ガウスノイズスペースからターゲットビデオ配信までのより良い軌跡をサンプリングします。
具体的には、テスト時間検証剤を使用して検索スペースを構築して、検索プロセスをガイドするフィードバックとヒューリスティックアルゴリズムを提供します。
テキストプロンプトが与えられた場合、推論時にノイズ候補を増やすことにより、最初に直感的な線形検索戦略を探ります。
すべてのフレームを同時に除去するためには、テスト時間の計算コストが大幅に必要であるため、ビデオブランチを適応的に拡張およびプルーン化するビデオ生成(TOF)と呼ばれるビデオ生成のためのより効率的なTTSメソッドをさらに設計します。
テキスト条件付けされたビデオ生成ベンチマークに関する広範な実験は、テスト時間計算の増加が一貫してビデオの品質を大幅に改善することを示しています。
プロジェクトページ:https://liuff19.github.io/video-t1

要約(オリジナル)

With the scale capability of increasing training data, model size, and computational cost, video generation has achieved impressive results in digital creation, enabling users to express creativity across various domains. Recently, researchers in Large Language Models (LLMs) have expanded the scaling to test-time, which can significantly improve LLM performance by using more inference-time computation. Instead of scaling up video foundation models through expensive training costs, we explore the power of Test-Time Scaling (TTS) in video generation, aiming to answer the question: if a video generation model is allowed to use non-trivial amount of inference-time compute, how much can it improve generation quality given a challenging text prompt. In this work, we reinterpret the test-time scaling of video generation as a searching problem to sample better trajectories from Gaussian noise space to the target video distribution. Specifically, we build the search space with test-time verifiers to provide feedback and heuristic algorithms to guide searching process. Given a text prompt, we first explore an intuitive linear search strategy by increasing noise candidates at inference time. As full-step denoising all frames simultaneously requires heavy test-time computation costs, we further design a more efficient TTS method for video generation called Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an autoregressive manner. Extensive experiments on text-conditioned video generation benchmarks demonstrate that increasing test-time compute consistently leads to significant improvements in the quality of videos. Project page: https://liuff19.github.io/Video-T1

arxiv情報

著者 Fangfu Liu,Hanyang Wang,Yimo Cai,Kaiyan Zhang,Xiaohang Zhan,Yueqi Duan
発行日 2025-03-24 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Video-T1: Test-Time Scaling for Video Generation はコメントを受け付けていません