Post-Training Quantization for Video Matting

要約

ビデオマットは、映画の制作や仮想現実などのアプリケーションにとって重要ですが、リソース制約のデバイスに計算集中モデルを展開することは課題をもたらします。
量子化は、モデルの圧縮と加速のための重要な手法です。
効率的なアプローチとして、トレーニング後の量子化(PTQ)は、ビデオマットの初期段階にあり、精度と時間的一貫性を維持する上で大きなハードルに直面しています。
これらの課題に対処するために、このペーパーでは、ビデオマットモデルのために特別に設計された斬新で一般的なPTQフレームワークを提案します。これは、このドメインでの最初の体系的な試みである、私たちの知る限り、マークを示しています。
私たちの貢献には、(1)高速で安定した初期量子化と局所依存性キャプチャのためのブロック再構築に基づく最適化を組み合わせた2段階のPTQ戦略が含まれます。
(2)ネットワークが無視されたBN層効果などの要因から生じる累積統計的歪みを補償することを可能にする統計的に駆動されたグローバルアフィンキャリブレーション(GAC)メソッド。
(3)PTQプロセスを導くために時間的およびセマンティックなプライアーをフレームから活用し、複雑なシーンで移動する前景を区別するモデルの能力を高め、最終的には超低ビット量の量子化下でも完全な精度のパフォーマンスを達成する光学流量支援(OFA)コンポーネント。
包括的な定量的および視覚的結果は、当社のPTQ4VMが、既存の量子化方法と比較して、さまざまなビット幅にわたって最先端の精度パフォーマンスを達成することを示しています。
4ビットのPTQ4VMは、8倍のフロップの節約を享受しながら、完全な極端なカウンターパートに近いパフォーマンスを達成することさえ強調しています。

要約(オリジナル)

Video matting is crucial for applications such as film production and virtual reality, yet deploying its computationally intensive models on resource-constrained devices presents challenges. Quantization is a key technique for model compression and acceleration. As an efficient approach, Post-Training Quantization (PTQ) is still in its nascent stages for video matting, facing significant hurdles in maintaining accuracy and temporal coherence. To address these challenges, this paper proposes a novel and general PTQ framework specifically designed for video matting models, marking, to the best of our knowledge, the first systematic attempt in this domain. Our contributions include: (1) A two-stage PTQ strategy that combines block-reconstruction-based optimization for fast, stable initial quantization and local dependency capture, followed by a global calibration of quantization parameters to minimize accuracy loss. (2) A Statistically-Driven Global Affine Calibration (GAC) method that enables the network to compensate for cumulative statistical distortions arising from factors such as neglected BN layer effects, even reducing the error of existing PTQ methods on video matting tasks up to 20%. (3) An Optical Flow Assistance (OFA) component that leverages temporal and semantic priors from frames to guide the PTQ process, enhancing the model’s ability to distinguish moving foregrounds in complex scenes and ultimately achieving near full-precision performance even under ultra-low-bit quantization. Comprehensive quantitative and visual results show that our PTQ4VM achieves the state-of-the-art accuracy performance across different bit-widths compared to the existing quantization methods. We highlight that the 4-bit PTQ4VM even achieves performance close to the full-precision counterpart while enjoying 8x FLOP savings.

arxiv情報

著者 Tianrui Zhu,Houyuan Chen,Ruihao Gong,Michele Magno,Haotong Qin,Kai Zhang
発行日 2025-06-12 15:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Post-Training Quantization for Video Matting はコメントを受け付けていません

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

要約

大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い物語ビデオベンチマークであるVrbenchを提示し、時間的推論と手続き上の妥当性を見落とす既存の評価の制限に対処します。
1,010個の長さのビデオ(平均1.6時間の期間)と、9,468人の人間標識マルチステップの質問アンウェーのペアと、タイムスタンプを使用した30,292の推論ステップで構成されています。
これらのビデオは、プロットコヒーレンスを優先するための専門家間レビューを含むマルチステージフィルタリングプロセスを介してキュレーションされています。
私たちは、コヒーレントな推論チェーンを生成する人間と協調的なフレームワークを開発します。それぞれが、7つのタイプ(例:イベントの帰属、暗黙的な推論など)にまたがる複数の時間的に接地したステップを必要とします。
Vrbenchは、結果レベルとプロセスレベルの両方でモデルを評価する多相評価パイプラインを設計します。
最終結果のMCQとは別に、複数の次元からの推論チェーンの品質を包括的に評価するために、進行状況レベルのLLM誘導スコアリングメトリックを提案します。
VRBenchで12 LLMと16のVLMを広範囲に評価することにより、徹底的な分析を行い、マルチステップ推論の分野を前進させる貴重な洞察を提供します。

要約(オリジナル)

We present VRBench, the first long narrative video benchmark crafted for evaluating large models’ multi-step reasoning capabilities, addressing limitations in existing evaluations that overlook temporal reasoning and procedural validity. It comprises 1,010 long videos (with an average duration of 1.6 hours), along with 9,468 human-labeled multi-step question-answering pairs and 30,292 reasoning steps with timestamps. These videos are curated via a multi-stage filtering process including expert inter-rater reviewing to prioritize plot coherence. We develop a human-AI collaborative framework that generates coherent reasoning chains, each requiring multiple temporally grounded steps, spanning seven types (e.g., event attribution, implicit inference). VRBench designs a multi-phase evaluation pipeline that assesses models at both the outcome and process levels. Apart from the MCQs for the final results, we propose a progress-level LLM-guided scoring metric to evaluate the quality of the reasoning chain from multiple dimensions comprehensively. Through extensive evaluations of 12 LLMs and 16 VLMs on VRBench, we undertake a thorough analysis and provide valuable insights that advance the field of multi-step reasoning.

arxiv情報

著者 Jiashuo Yu,Yue Wu,Meng Chu,Zhifei Ren,Zizheng Huang,Pei Chu,Ruijie Zhang,Yinan He,Qirui Li,Songze Li,Zhenxiang Li,Zhongying Tu,Conghui He,Yu Qiao,Yali Wang,Yi Wang,Limin Wang
発行日 2025-06-12 16:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos はコメントを受け付けていません

Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation

要約

医療画像セグメンテーションは、コンピューター支援診断と治療における基本的で重要な技術です。
以前の方法は、両方を組み合わせた畳み込みニューラルネットワーク(CNN)ベース、トランスベース、およびハイブリッドアーキテクチャの3つのカテゴリに広く分類できます。
ただし、CNNの制限された受容フィールドや、トランスの二次複雑さによって引き起こされる計算オーバーヘッドなど、それぞれに独自の制限があります。
最近、レセプタンス加重キー値(RWKV)モデルは、さまざまなビジョンタスクの有望な代替手段として浮上しており、線形計算の複雑さを備えた強力な長距離モデリング機能を提供しています。
一部の研究では、RWKVを医療画像セグメンテーションタスクに適合させ、競争力のあるパフォーマンスを達成しています。
ただし、これらの研究のほとんどは、医療画像セグメンテーションタスクの事前に訓練されたVRWKVモデルを活用する潜在的な利点を調査することなく、Vision-RWKV(VRWKV)メカニズムと訓練モデルの変更に焦点を当てています。
このホワイトペーパーでは、Med-Urwkvを提案します。Med-urwkvは、医療画像セグメンテーションタスクにおけるRWKVの可能性をさらに調査するためにイメージネットベースの事前販売を組み込んだU-Netフレームワークに基づいて構築された純粋なRWKVベースのアーキテクチャを提案します。
私たちの知る限り、Med-Urwkvは、大規模な事前訓練を受けたVRWKVエンコーダーを直接再利用できる医療分野で最初の純粋なRWKVセグメンテーションモデルです。
7つのデータセットでの実験結果は、MED-URWKVが、ゼロからトレーニングされた他の慎重に最適化されたRWKVモデルと比較して、同等または優れたセグメンテーションパフォーマンスを達成することを示しています。
これは、モデルのパフォーマンスを向上させる際に、前処理されたVRWKVエンコーダーを使用することの有効性を検証します。
コードがリリースされます。

要約(オリジナル)

Medical image segmentation is a fundamental and key technology in computer-aided diagnosis and treatment. Previous methods can be broadly classified into three categories: convolutional neural network (CNN) based, Transformer based, and hybrid architectures that combine both. However, each of them has its own limitations, such as restricted receptive fields in CNNs or the computational overhead caused by the quadratic complexity of Transformers. Recently, the Receptance Weighted Key Value (RWKV) model has emerged as a promising alternative for various vision tasks, offering strong long-range modeling capabilities with linear computational complexity. Some studies have also adapted RWKV to medical image segmentation tasks, achieving competitive performance. However, most of these studies focus on modifications to the Vision-RWKV (VRWKV) mechanism and train models from scratch, without exploring the potential advantages of leveraging pre-trained VRWKV models for medical image segmentation tasks. In this paper, we propose Med-URWKV, a pure RWKV-based architecture built upon the U-Net framework, which incorporates ImageNet-based pretraining to further explore the potential of RWKV in medical image segmentation tasks. To the best of our knowledge, Med-URWKV is the first pure RWKV segmentation model in the medical field that can directly reuse a large-scale pre-trained VRWKV encoder. Experimental results on seven datasets demonstrate that Med-URWKV achieves comparable or even superior segmentation performance compared to other carefully optimized RWKV models trained from scratch. This validates the effectiveness of using a pretrained VRWKV encoder in enhancing model performance. The codes will be released.

arxiv情報

著者 Zhenhuan Zhou
発行日 2025-06-12 16:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation はコメントを受け付けていません

Latent Action Learning Requires Supervision in the Presence of Distractors

要約

最近、Latent Action Policies(LAPO)によって開拓されたLatent Action Learningは、観察のみのデータで顕著なトレーニング効率を示しており、具体化されたAIのためにWebで利用可能な膨大な量のビデオを活用する可能性を提供します。
ただし、以前の作業では、ディストラクタフリーのデータに焦点を当てており、観測間の変化は主に根本的な行動によって説明されます。
残念ながら、実際のビデオには、潜在的なアクション学習を妨げる可能性のあるアクション相関のディストラクタが含まれています。
気を散らすコントロールスイート(DCS)を使用して、潜在的なアクション学習に対するディストラクタの効果を経験的に調査し、そのようなシナリオでLAPOが苦労していることを実証します。
Laomを提案します。Laomは、線形プロービングで測定されるように、潜在アクションの品質を8倍改善する単純なLAPO変更を提案します。
重要なことに、潜在的なアクション学習中に、完全なデータセットのわずか2.5%で、地上の真実のアクションで監督を提供すると、平均して下流のパフォーマンスが4.2倍向上することを示しています。
我々の調査結果は、潜在アクションモデル(LAM)トレーニング中に監督を統合することが、ディストラクタの存在下で重要であり、最初の学習LAMの従来のパイプラインに挑戦し、その後潜在的な真実のアクションからグラウンドトゥルースアクションへと解読することを示唆しています。

要約(オリジナル)

Recently, latent action learning, pioneered by Latent Action Policies (LAPO), have shown remarkable pre-training efficiency on observation-only data, offering potential for leveraging vast amounts of video available on the web for embodied AI. However, prior work has focused on distractor-free data, where changes between observations are primarily explained by ground-truth actions. Unfortunately, real-world videos contain action-correlated distractors that may hinder latent action learning. Using Distracting Control Suite (DCS) we empirically investigate the effect of distractors on latent action learning and demonstrate that LAPO struggle in such scenario. We propose LAOM, a simple LAPO modification that improves the quality of latent actions by 8x, as measured by linear probing. Importantly, we show that providing supervision with ground-truth actions, as few as 2.5% of the full dataset, during latent action learning improves downstream performance by 4.2x on average. Our findings suggest that integrating supervision during Latent Action Models (LAM) training is critical in the presence of distractors, challenging the conventional pipeline of first learning LAM and only then decoding from latent to ground-truth actions.

arxiv情報

著者 Alexander Nikulin,Ilya Zisman,Denis Tarasov,Nikita Lyubaykin,Andrei Polubarov,Igor Kiselev,Vladislav Kurenkov
発行日 2025-06-12 16:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Latent Action Learning Requires Supervision in the Presence of Distractors はコメントを受け付けていません

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

要約

最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価を通じて視覚品質を熟練して評価できることが示されています。
ただし、既存のアプローチは通常、品質のスコアリングと推論の説明を、相手最適化目標を持つ個別のタスクとして扱い、トレードオフにつながります。品質の推論の説明に熟達したモデルは、正確なスコア回帰と闘っていますが、スコアに焦点を当てたモデルは解釈性を欠いています。
この制限は、精度と解釈可能性が相互に強化されるべきである視覚的な品質評価におけるMLLMの完全な可能性を妨げます。
これに対処するために、コールドスタートステージと強化学習ベースの微調整段階を含む統一された2段階トレーニングフレームワークを提案します。
具体的には、最初の段階では、エキスパートが設計したプロンプトを介して教師モデルから高品質のデータを蒸留し、エントロピー損失の監督を介して推論機能を初期化します。
第2段階では、スコアリングの精度と推論の一貫性を共同で最適化するために、グループ相対政策最適化(GRPO)を含む新しい報酬を導入します。
これら2つの段階から派生したモデルをQポンダーCIおよびQポンダーとして指定します。
広範な実験では、Qポンダーが品質スコア回帰ベンチマークで最先端(SOTA)パフォーマンスを達成し、クロスドメインデータセットで最大6.5%高いSRCCを提供することが示されています。
さらに、Qポンダーは、教師モデルQWEN-2.5-VL-72Bを含む説明ベースのSOTAモデルを大幅に上回り、特に説明の精度と妥当性において、多様なタスクに対する一般化の可能性を示しています。

要約(オリジナル)

Recent studies demonstrate that multimodal large language models (MLLMs) can proficiently evaluate visual quality through interpretable assessments. However, existing approaches typically treat quality scoring and reasoning descriptions as separate tasks with disjoint optimization objectives, leading to a trade-off: models adept at quality reasoning descriptions struggle with precise score regression, while score-focused models lack interpretability. This limitation hinders the full potential of MLLMs in visual quality assessment, where accuracy and interpretability should be mutually reinforcing. To address this, we propose a unified two-stage training framework comprising a cold-start stage and a reinforcement learning-based fine-tuning stage. Specifically, in the first stage, we distill high-quality data from a teacher model through expert-designed prompts, initializing reasoning capabilities via cross-entropy loss supervision. In the second stage, we introduce a novel reward with Group Relative Policy Optimization (GRPO) to jointly optimize scoring accuracy and reasoning consistency. We designate the models derived from these two stages as Q-Ponder-CI and Q-Ponder. Extensive experiments show that Q-Ponder achieves state-of-the-art (SOTA) performance on quality score regression benchmarks, delivering up to 6.5% higher SRCC on cross-domain datasets. Furthermore, Q-Ponder significantly outperforms description-based SOTA models, including its teacher model Qwen-2.5-VL-72B, particularly in description accuracy and reasonableness, demonstrating the generalization potential over diverse tasks.

arxiv情報

著者 Zhuoxuan Cai,Jian Zhang,Xinbin Yuan,Peng-Tao Jiang,Wenxiang Chen,Bowen Tang,Lujian Yao,Qiyuan Wang,Jinwen Chen,Bo Li
発行日 2025-06-12 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment はコメントを受け付けていません

CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation

要約

グラフィックデザインは、商業的および個人的なコンテキストの両方で重要な役割を果たしますが、特に初心者にとっては、高品質で編集可能な、審美的に心地よいグラフィック構成を作成することは、時間がかかり、スキル集約的なタスクのままです。
現在のAIツールは、ワークフローの一部を自動化しますが、ユーザーが提供する資産を正確に組み込み、編集可能性を維持し、専門的な視覚的魅力を達成するのに苦労しています。
Canva Magic Designのような商用システムは、複製するのに非現実的な膨大なテンプレートライブラリに依存しています。
このペーパーでは、オプションの自然言語の指示または資産から編集可能な多層構成を生成するフレームワークであるCreatiposterを紹介します。
RGBAラージマルチモーダルモデルであるプロトコルモデルは、まず、正確なレイアウト、階層、コンテンツ、スタイルを備えたすべてのレイヤー(テキストまたは資産)を詳細に詳細にするJSON仕様を作成し、さらに簡潔なバックグラウンドプロンプトを作成します。
条件付きバックグラウンドモデルは、このレンダリングされた前景層に条件付けられたコヒーレントバックグラウンドを合成します。
グラフィックデザイン生成用の自動メトリックを使用してベンチマークを構築し、Creatiposterが主要なオープンソースアプローチと独自の商用システムを上回ることを示しています。
さらなる研究を触媒するために、100,000の多層設計の著作権のないコーパスをリリースします。
Creatiposterは、Canvasの編集、テキストオーバーレイ、レスポンシブサイズ変更、多言語適応、アニメーションポスターなどの多様なアプリケーションをサポートし、AI支援グラフィックデザインの民主化を進めています。
プロジェクトホームページ:https://github.com/graphic-design-ai/creatiposter

要約(オリジナル)

Graphic design plays a crucial role in both commercial and personal contexts, yet creating high-quality, editable, and aesthetically pleasing graphic compositions remains a time-consuming and skill-intensive task, especially for beginners. Current AI tools automate parts of the workflow, but struggle to accurately incorporate user-supplied assets, maintain editability, and achieve professional visual appeal. Commercial systems, like Canva Magic Design, rely on vast template libraries, which are impractical for replicate. In this paper, we introduce CreatiPoster, a framework that generates editable, multi-layer compositions from optional natural-language instructions or assets. A protocol model, an RGBA large multimodal model, first produces a JSON specification detailing every layer (text or asset) with precise layout, hierarchy, content and style, plus a concise background prompt. A conditional background model then synthesizes a coherent background conditioned on this rendered foreground layers. We construct a benchmark with automated metrics for graphic-design generation and show that CreatiPoster surpasses leading open-source approaches and proprietary commercial systems. To catalyze further research, we release a copyright-free corpus of 100,000 multi-layer designs. CreatiPoster supports diverse applications such as canvas editing, text overlay, responsive resizing, multilingual adaptation, and animated posters, advancing the democratization of AI-assisted graphic design. Project homepage: https://github.com/graphic-design-ai/creatiposter

arxiv情報

著者 Zhao Zhang,Yutao Cheng,Dexiang Hong,Maoke Yang,Gonglei Shi,Lei Ma,Hui Zhang,Jie Shao,Xinglong Wu
発行日 2025-06-12 16:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation はコメントを受け付けていません

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

要約

ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用してターゲットドメインからサンプルなしで、事前に訓練されたジェネレーターをターゲットドメインに適応させることを目指しています。
最近のZSGMアプローチの中心は、クリップなどのビジョン言語モデルの埋め込みスペースに画像オフセットをテキストオフセットに合わせるという形でテキストガイダンスを使用する方向性の損失です。
これは、NLPの類似の推論に似ています。1つの単語のペア間のオフセットを使用して、これら2つのペア間でオフセットを整列させることにより、別のペアの欠落要素を識別します。
ただし、既存のZSGMメソッドの主な制限は、学習目標が、クリップ埋め込みスペースの画像オフセットとテキストオフセットの完全な整合を想定し、生成された画像に品質が低下することです。
私たちの仕事は2つの主な貢献をしています。
NLPでのオフセットの不整合研究に触発され、最初の貢献として、さまざまな大規模に利用可能なデータセットのためのクリップ埋め込みスペースのテキストオフセットと画像オフセットの不整合を分析するための経験的研究を実施します。
私たちの重要な発見は、クリップ埋め込みスペースのオフセットの不整合が概念の距離と相関していることです。つまり、密接な概念はオフセットの不整合が少ないことです。
現在のアプローチの制限に対処するために、2番目の貢献として、オフセットの不整合に関する新しい洞察に基づいてターゲットドメインの画質を改善することに焦点を当てる最初のZSGMアプローチである反復洗練(AIR)による適応を提案します。
追加の実験はsuppにあります。

要約(オリジナル)

Zero-shot generative model adaptation (ZSGM) aims to adapt a pre-trained generator to a target domain using only text guidance and without any samples from the target domain. Central to recent ZSGM approaches are directional loss which use the text guidance in the form of aligning the image offset with text offset in the embedding space of a vision-language model like CLIP. This is similar to the analogical reasoning in NLP where the offset between one pair of words is used to identify a missing element in another pair by aligning the offset between these two pairs. However, a major limitation of existing ZSGM methods is that the learning objective assumes the complete alignment between image offset and text offset in the CLIP embedding space, resulting in quality degrade in generated images. Our work makes two main contributions. Inspired by the offset misalignment studies in NLP, as our first contribution, we perform an empirical study to analyze the misalignment between text offset and image offset in CLIP embedding space for various large publicly available datasets. Our important finding is that offset misalignment in CLIP embedding space is correlated with concept distance, i.e., close concepts have a less offset misalignment. To address the limitations of the current approaches, as our second contribution, we propose Adaptation with Iterative Refinement (AIR) which is the first ZSGM approach to focus on improving target domain image quality based on our new insight on offset misalignment.Qualitative, quantitative, and user study in 26 experiment setups consistently demonstrate the proposed AIR approach achieves SOTA performance. Additional experiments are in Supp.

arxiv情報

著者 Guimeng Liu,Milad Abdollahzadeh,Ngai-Man Cheung
発行日 2025-06-12 17:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AIR: Zero-shot Generative Model Adaptation with Iterative Refinement はコメントを受け付けていません

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

要約

視覚的に介入されたチェーンオブテアのチェーン(VI-COT)により、MLLMは、さまざまなタスクで印象的な成功を示す人間の意志と同じように、段階的な中間視覚状態(IV)に基づいて理解と決定を継続的に更新することができ、それによって関連するベンチマークの進歩が明らかになります。
有望な進歩にもかかわらず、現在のベンチマークは、フリースタイルのIVではなく比較的固定されたIVをモデルに提供します。
さらに重要なことは、既存のベンチマークが、IVが手付かずの推論パフォーマンスに与える影響要因を体系的に調査することを怠ることです。
上記のギャップに取り組むために、迷路ナビゲーション、ジグソーパズル、具体化された長距離計画、および複雑なカウントの4つの代表的なタスクで構成されるVICベンチと呼ばれる特殊なベンチマークを紹介します。
VI-COT機能を体系的に調べるために、ターゲットを絞った新しいメトリックを備えた進歩的な3段階戦略を組み込んだ徹底的な評価スイートを提案します。
その上、VI-COTのプロンプト要因を乱暴に調査するために、インクリメントプロンプト情報インジェクション(IPII)戦略を確立します。
18の高度なMLLMの評価を広範囲に実施し、VI-COT機能に関する重要な洞察を明らかにしています。
提案されたベンチマークは、Huggingfaceで公開されています。

要約(オリジナル)

Visual-Interleaved Chain-of-Thought (VI-CoT) enables MLLMs to continually update their understanding and decisions based on step-wise intermediate visual states (IVS), much like a human would, which demonstrates impressive success in various tasks, thereby leading to emerged advancements in related benchmarks. Despite promising progress, current benchmarks provide models with relatively fixed IVS, rather than free-style IVS, whch might forcibly distort the original thinking trajectories, failing to evaluate their intrinsic reasoning capabilities. More importantly, existing benchmarks neglect to systematically explore the impact factors that IVS would impart to untamed reasoning performance. To tackle above gaps, we introduce a specialized benchmark termed ViC-Bench, consisting of four representive tasks: maze navigation, jigsaw puzzle, embodied long-horizon planning, and complex counting, where each task has dedicated free-style IVS generation pipeline supporting function calls. To systematically examine VI-CoT capability, we propose a thorough evaluation suite incorporating a progressive three-stage strategy with targeted new metrics. Besides, we establish Incremental Prompting Information Injection (IPII) strategy to ablatively explore the prompting factors for VI-CoT. We extensively conduct evaluations for 18 advanced MLLMs, revealing key insights into their VI-CoT capability. Our proposed benchmark is publicly open at Huggingface.

arxiv情報

著者 Xuecheng Wu,Jiaxing Liu,Danlei Huang,Xiaoyu Li,Yifan Wang,Chen Chen,Liya Ma,Xuezhi Cao,Junxiao Xue
発行日 2025-06-12 17:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations はコメントを受け付けていません

Object-Centric Latent Action Learning

要約

具体化されたAIの膨大な量の非標識インターネットビデオデータを活用することは、現在、アクションラベルの欠如とアクション相関の視覚ディストラクタの存在によってボトルネックされています。
最近の潜在アクションポリシー最適化(LAPO)は、視覚観測からプロキシアクションラベルを推測することで有望であることを示していますが、ディストラクタが存在すると、そのパフォーマンスは大幅に低下します。
この制限に対処するために、ピクセルではなくオブジェクトを中心とする新しいオブジェクト中心の潜在アクション学習フレームワークを提案します。
私たちは、自己監視されたオブジェクト中心の事前トレーニングを、解き間、アクション関連および気を散らすダイナミクスに向けて活用します。
これにより、LAPOはタスクに関連する相互作用に焦点を当てることができ、より堅牢なプロキシアクションラベルをもたらし、より良い模倣学習とエージェントの効率的な適応を可能にします。
気晴らしコントロールスイート(DCS)と気を散らすMetaworld(DMW)を介した8つの視覚的に複雑なタスクでの方法を評価しました。
我々の結果は、オブジェクト中心の事前削除が、下流のタスクパフォ​​ーマンス、平均リターン(DCS)と成功率(DMW)で測定されるように、ディストラクタの負の影響を50%軽減することを示しています。

要約(オリジナル)

Leveraging vast amounts of unlabeled internet video data for embodied AI is currently bottlenecked by the lack of action labels and the presence of action-correlated visual distractors. Although recent latent action policy optimization (LAPO) has shown promise in inferring proxy-action labels from visual observations, its performance degrades significantly when distractors are present. To address this limitation, we propose a novel object-centric latent action learning framework that centers on objects rather than pixels. We leverage self-supervised object-centric pretraining to disentangle action-related and distracting dynamics. This allows LAPO to focus on task-relevant interactions, resulting in more robust proxy-action labels, enabling better imitation learning and efficient adaptation of the agent with just a few action-labeled trajectories. We evaluated our method in eight visually complex tasks across the Distracting Control Suite (DCS) and Distracting MetaWorld (DMW). Our results show that object-centric pretraining mitigates the negative effects of distractors by 50%, as measured by downstream task performance: average return (DCS) and success rate (DMW).

arxiv情報

著者 Albina Klepach,Alexander Nikulin,Ilya Zisman,Denis Tarasov,Alexander Derevyagin,Andrei Polubarov,Nikita Lyubaykin,Vladislav Kurenkov
発行日 2025-06-12 17:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Object-Centric Latent Action Learning はコメントを受け付けていません

M4V: Multi-Modal Mamba for Text-to-Video Generation

要約

テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な世界シミュレーターに進化する可能性を秘めています。
ただし、特に変圧器を使用する場合、広大な時空スペースをモデリングすると、順番に順番に複雑さを伴う場合があり、実用的なアプリケーションを制限する場合は、計算上厳しいままです。
線形時間シーケンスモデリング、特にMambaアーキテクチャの最近の進歩は、より効率的な代替品を提供します。
それにもかかわらず、そのプレーンデザインは、マルチモーダルおよび空間的なビデオ生成タスクへの直接的な適用性を制限します。
これらの課題に対処するために、テキストからビデオへの生成のためのマルチモーダルMAMBAフレームワークであるM4Vを紹介します。
具体的には、マルチモーダル情報のシームレスな統合とマルチモーダルトークンの再配置設計を介した空間的モデリングを可能にするマルチモーダル拡散MAMBA(MM-DIM)ブロックを提案します。
その結果、M4VのMAMBAブロックは、768 $ \ Times 1280ドルの解像度でビデオを生成する際の注意ベースの代替品と比較して、フロップを45%減少させます。
さらに、長いコンテキストの自己回帰生成プロセスにおける視覚的な品質の低下を緩和するために、視覚ごとのリアリズムをさらに強化する報酬学習戦略を導入します。
テキストからビデオへのベンチマークに関する広範な実験は、M4Vが高品質のビデオを作成しながら計算コストを大幅に削減する能力を示しています。
コードとモデルは、https://huangjch526.github.io/m4v_projectで公開されます。

要約(オリジナル)

Text-to-video generation has significantly enriched content creation and holds the potential to evolve into powerful world simulators. However, modeling the vast spatiotemporal space remains computationally demanding, particularly when employing Transformers, which incur quadratic complexity in sequence processing and thus limit practical applications. Recent advancements in linear-time sequence modeling, particularly the Mamba architecture, offer a more efficient alternative. Nevertheless, its plain design limits its direct applicability to multi-modal and spatiotemporal video generation tasks. To address these challenges, we introduce M4V, a Multi-Modal Mamba framework for text-to-video generation. Specifically, we propose a multi-modal diffusion Mamba (MM-DiM) block that enables seamless integration of multi-modal information and spatiotemporal modeling through a multi-modal token re-composition design. As a result, the Mamba blocks in M4V reduce FLOPs by 45% compared to the attention-based alternative when generating videos at 768$\times$1280 resolution. Additionally, to mitigate the visual quality degradation in long-context autoregressive generation processes, we introduce a reward learning strategy that further enhances per-frame visual realism. Extensive experiments on text-to-video benchmarks demonstrate M4V’s ability to produce high-quality videos while significantly lowering computational costs. Code and models will be publicly available at https://huangjch526.github.io/M4V_project.

arxiv情報

著者 Jiancheng Huang,Gengwei Zhang,Zequn Jie,Siyu Jiao,Yinlong Qian,Ling Chen,Yunchao Wei,Lin Ma
発行日 2025-06-12 17:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | M4V: Multi-Modal Mamba for Text-to-Video Generation はコメントを受け付けていません