Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

要約

画像やビデオの包括的な地域レベルの視覚的理解のための概念的に簡単かつ効率的なフレームワークであるモデル(PAM)を知覚します。
私たちのアプローチは、大規模な言語モデル(LLM)を統合することにより、強力なセグメンテーションモデルSAM 2を拡張し、オブジェクトセグメンテーションを同時に、カテゴリ、ラベル定義、機能的説明、詳細なキャプションを含む多様な地域固有のセマンティック出力の生成を可能にします。
主要なコンポーネントであるセマンティックプロシバーが、Sam 2のリッチな視覚的特徴を効率的に変換するために導入されます。これは、一般的なビジョン、ローカリゼーション、およびセマンティックプライエアをLLM理解のためにマルチモーダルトークンに本質的に伝達します。
堅牢なマルチ粒度の理解をサポートするために、専用のデータ改良と増強パイプラインも開発し、1.5mの画像と0.6mのビデオレジョンセマンチックな注釈の高品質のデータセットを生成します。
PAMは軽量と効率のために設計されていますが、地域の理解タスクの多様な範囲で強力なパフォーマンスを示しています。
1.2〜2.4倍速く実行され、以前のアプローチよりもGPUメモリが少なくなり、実際のアプリケーション向けの実用的なソリューションが提供されます。
私たちの効果的なアプローチは、地域レベルの視覚的理解における将来の研究の強力なベースラインとして役立つと考えています。

要約(オリジナル)

We present Perceive Anything Model (PAM), a conceptually straightforward and efficient framework for comprehensive region-level visual understanding in images and videos. Our approach extends the powerful segmentation model SAM 2 by integrating Large Language Models (LLMs), enabling simultaneous object segmentation with the generation of diverse, region-specific semantic outputs, including categories, label definition, functional explanations, and detailed captions. A key component, Semantic Perceiver, is introduced to efficiently transform SAM 2’s rich visual features, which inherently carry general vision, localization, and semantic priors into multi-modal tokens for LLM comprehension. To support robust multi-granularity understanding, we also develop a dedicated data refinement and augmentation pipeline, yielding a high-quality dataset of 1.5M image and 0.6M video region-semantic annotations, including novel region-level streaming video caption data. PAM is designed for lightweightness and efficiency, while also demonstrates strong performance across a diverse range of region understanding tasks. It runs 1.2-2.4x faster and consumes less GPU memory than prior approaches, offering a practical solution for real-world applications. We believe that our effective approach will serve as a strong baseline for future research in region-level visual understanding.

arxiv情報

著者 Weifeng Lin,Xinyu Wei,Ruichuan An,Tianhe Ren,Tingwei Chen,Renrui Zhang,Ziyu Guo,Wentao Zhang,Lei Zhang,Hongsheng Li
発行日 2025-06-05 17:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos はコメントを受け付けていません

ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

要約

考え方の推論と強化学習(RL)がNLPのブレークスルーを駆動していますが、生成ビジョンモデルへの統合は依存していないままです。
Reasongen-R1は、最初に、書かれた理論的根拠の新たに生成された推論データセットで監視された微調整を介して、明示的なテキストベースの「思考」スキルを自動再生画像ジェネレーターに吸収し、グループ相対ポリシーの最適化を使用して出力を改良します。
画像を生成する前にテキストを介してモデルを推論できるようにするために、視覚的なプロンプトと組み合わせたモデル作成された理論的根拠のコーパスを自動的に生成およびリリースし、オブジェクトレイアウト、スタイル、シーン構成の制御計画を可能にします。
当社のGRPOアルゴリズムは、前処理されたビジョン言語モデルからの報酬信号を使用して、全体的な視覚品質を評価し、各アップデートのポリシーを最適化します。
Geneval、DPG、およびT2Iベンチマークの評価は、Reasongen-R1が強力なベースラインと以前の最先端モデルを常に上回ることを示しています。
詳細:別名MMS/Reasongen。

要約(オリジナル)

Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based ‘thinking’ skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.

arxiv情報

著者 Yu Zhang,Yunqi Li,Yifan Yang,Rui Wang,Yuqing Yang,Dai Qi,Jianmin Bao,Dongdong Chen,Chong Luo,Lili Qiu
発行日 2025-06-05 17:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL はコメントを受け付けていません

Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels

要約

画像とオブジェクトインスタンス間で意味的に類似したポイント間の対応を見つけることは、コンピュータービジョンにおける永遠の課題の1つです。
大規模な訓練を受けた視力モデルが最近、セマンティックマッチングに効果的な事前に実証されていますが、対称オブジェクトまたは繰り返されるオブジェクトパーツの曖昧さに依然として苦しんでいます。
3Dが認識した擬似標識を介してセマンティック対応の推定を改善することを提案します。
具体的には、3Dが得たチェーンを介して得られた擬似ラベルを使用して、既製の機能を改良するためのアダプターをトレーニングし、緩和された周期的な一貫性を介して間違ったラベルをフィルタリングし、3D球状プロトタイプマッピング制約を介して間違ったラベルをフィルタリングします。
以前の作業と比較してデータセット固有の注釈の必要性を削減しながら、SPAIR-71Kの新しい最先端を4%以上の絶対ゲイン、および同様の監督要件を持つ方法に対して7%以上設定しました。
提案されたアプローチの一般性は、他のデータソースへのトレーニングの拡張を簡素化します。これは、実験で実証しています。

要約(オリジナル)

Finding correspondences between semantically similar points across images and object instances is one of the everlasting challenges in computer vision. While large pre-trained vision models have recently been demonstrated as effective priors for semantic matching, they still suffer from ambiguities for symmetric objects or repeated object parts. We propose to improve semantic correspondence estimation via 3D-aware pseudo-labeling. Specifically, we train an adapter to refine off-the-shelf features using pseudo-labels obtained via 3D-aware chaining, filtering wrong labels through relaxed cyclic consistency, and 3D spherical prototype mapping constraints. While reducing the need for dataset specific annotations compared to prior work, we set a new state-of-the-art on SPair-71k by over 4% absolute gain and by over 7% against methods with similar supervision requirements. The generality of our proposed approach simplifies extension of training to other data sources, which we demonstrate in our experiments.

arxiv情報

著者 Olaf Dünkel,Thomas Wimmer,Christian Theobalt,Christian Rupprecht,Adam Kortylewski
発行日 2025-06-05 17:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels はコメントを受け付けていません

MARBLE: Material Recomposition and Blending in CLIP-Space

要約

模範的な画像に基づいた画像内のオブジェクトの資料の編集は、コンピュータービジョンとグラフィックスの研究のアクティブな領域です。
大理石を提案します。これは、クリップスペースに材料の埋め込みを見つけ、事前に訓練されたテキストから画像モデルを制御するために材料の埋め込みを使用して、材料の混合および再構成する方法を提案します。
材料の帰属の原因となる除去UNETのブロックを見つけることにより、模範ベースの材料編集を改善します。
2つの材料の模範を考えると、材料をブレンドするためのクリップスペースに方向があります。
さらに、浅いネットワークを使用して、粗さ、金属、透明性、グローなどの微粒材料属性をパラメトリック制御して、目的の材料属性の変化の方向を予測することができます。
定性的および定量的分析を実施して、提案された方法の有効性を実証します。
また、単一のフォワードパスで複数の編集を実行する方法と塗装への適用性を示します。
プロジェクトページ:https://marblecontrol.github.io/

要約(オリジナル)

Editing materials of objects in images based on exemplar images is an active area of research in computer vision and graphics. We propose MARBLE, a method for performing material blending and recomposing fine-grained material properties by finding material embeddings in CLIP-space and using that to control pre-trained text-to-image models. We improve exemplar-based material editing by finding a block in the denoising UNet responsible for material attribution. Given two material exemplar-images, we find directions in the CLIP-space for blending the materials. Further, we can achieve parametric control over fine-grained material attributes such as roughness, metallic, transparency, and glow using a shallow network to predict the direction for the desired material attribute change. We perform qualitative and quantitative analysis to demonstrate the efficacy of our proposed method. We also present the ability of our method to perform multiple edits in a single forward pass and applicability to painting. Project Page: https://marblecontrol.github.io/

arxiv情報

著者 Ta-Ying Cheng,Prafull Sharma,Mark Boss,Varun Jampani
発行日 2025-06-05 17:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MARBLE: Material Recomposition and Blending in CLIP-Space はコメントを受け付けていません

ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation

要約

ニューラルレンダリングは、3D再構成と新規ビューの合成に大きな進歩を遂げました。
物理学との統合により、新しいアプリケーションが開きます。
しかし、視覚データから物理学を推定する逆の問題は、依然として困難なままであり、ロボット工学やXRでの物理的に正確なデジタルツイン作成などのアプリケーションの有効性を制限しています。
神経レンダリングフレームワークに物理学を組み込む既存の方法は、通常、入力として密なマルチビュービデオを必要とし、それらをスケーラブルで実世界の使用には非現実的にします。
スパースマルチビュービデオで提示されると、既存のアプローチで使用されるシーケンシャル最適化戦略は、大幅なエラー蓄積をもたらします。
連続的な最適化の代わりに、すべてのパラメーターを同時に直接最適化することは、非常に非凸でしばしば非拡張性のない問題のために失敗します。
Projo4Dは、その感度によって導かれる共同最適化されたパラメーターのセットを徐々に増加させ、幾何学、外観、物理状態、および材料特性よりも完全に共同最適化につながるProjo4Dを提案します。
PAC-NERFおよびSPRING-GAUSデータセットの評価は、Projo4Dが4D将来の状態予測、将来の状態の新しい見解レンダリング、および物理的パラメーターの推定での以前の研究よりも優れていることを示しています。
デモについては、プロジェクトWebページにアクセスしてください:https://daniel03c1.github.io/projo4d/

要約(オリジナル)

Neural rendering has made significant strides in 3D reconstruction and novel view synthesis. With the integration with physics, it opens up new applications. The inverse problem of estimating physics from visual data, however, still remains challenging, limiting its effectiveness for applications like physically accurate digital twin creation in robotics and XR. Existing methods that incorporate physics into neural rendering frameworks typically require dense multi-view videos as input, making them impractical for scalable, real-world use. When presented with sparse multi-view videos, the sequential optimization strategy used by existing approaches introduces significant error accumulation, e.g., poor initial 3D reconstruction leads to bad material parameter estimation in subsequent stages. Instead of sequential optimization, directly optimizing all parameters at the same time also fails due to the highly non-convex and often non-differentiable nature of the problem. We propose ProJo4D, a progressive joint optimization framework that gradually increases the set of jointly optimized parameters guided by their sensitivity, leading to fully joint optimization over geometry, appearance, physical state, and material property. Evaluations on PAC-NeRF and Spring-Gaus datasets show that ProJo4D outperforms prior work in 4D future state prediction, novel view rendering of future state, and material parameter estimation, demonstrating its effectiveness in physically grounded 4D scene understanding. For demos, please visit the project webpage: https://daniel03c1.github.io/ProJo4D/

arxiv情報

著者 Daniel Rho,Jun Myeong Choi,Biswadip Dey,Roni Sengupta
発行日 2025-06-05 17:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation はコメントを受け付けていません

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

要約

2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高いキャプション、視覚的接地などのタスクの3D設定に拡張することに関心を抱いています。
通常、画像エンコーダーを介して画像を処理する2D VLMとは異なり、複雑な空間構造を備えた3Dシーンでは、多様なモデルアーキテクチャを可能にします。
エンコーダー設計に基づいて、このペーパーでは、最近の3D VLMを3Dオブジェクト中心の2D画像ベース、および3Dシーン中心のアプローチに分類します。
3Dシーン中心のVLMが2D対応物とのアーキテクチャの類似性にもかかわらず、最新の3Dオブジェクト中心および2D画像ベースのアプローチと比較して、比較的低いパフォーマンスを示しています。
このギャップを理解するために、詳細な分析を実施し、3Dシーン中心のVLMSが3Dシーンエンコーダーへの依存度が限られていることを明らかにし、トレイン前のステージは2D VLMSよりも効果が低いようです。
さらに、データスケーリングの利点は、より大きなデータセットではあまり顕著ではないことがわかります。
私たちの調査によると、これらのモデルはクロスモーダルアライメント機能を持っていますが、頻繁な回答分布に対して言語的手がかりと過剰に依存する傾向があり、それにより3Dエンコーダーの効果的な利用が減少することが示唆されています。
これらの制限に対処し、本物の3Dシーンの理解を奨励するために、ショートカット学習を混乱させ、3D理解を改善するために設計された新しい3D関連性識別QAデータセットを導入します。
私たちの調査結果は、3D VLMSでの3D理解を改善するための高度な評価と改善された戦略の必要性を強調しています。

要約(オリジナル)

Remarkable progress in 2D Vision-Language Models (VLMs) has spurred interest in extending them to 3D settings for tasks like 3D Question Answering, Dense Captioning, and Visual Grounding. Unlike 2D VLMs that typically process images through an image encoder, 3D scenes, with their intricate spatial structures, allow for diverse model architectures. Based on their encoder design, this paper categorizes recent 3D VLMs into 3D object-centric, 2D image-based, and 3D scene-centric approaches. Despite the architectural similarity of 3D scene-centric VLMs to their 2D counterparts, they have exhibited comparatively lower performance compared with the latest 3D object-centric and 2D image-based approaches. To understand this gap, we conduct an in-depth analysis, revealing that 3D scene-centric VLMs show limited reliance on the 3D scene encoder, and the pre-train stage appears less effective than in 2D VLMs. Furthermore, we observe that data scaling benefits are less pronounced on larger datasets. Our investigation suggests that while these models possess cross-modal alignment capabilities, they tend to over-rely on linguistic cues and overfit to frequent answer distributions, thereby diminishing the effective utilization of the 3D encoder. To address these limitations and encourage genuine 3D scene understanding, we introduce a novel 3D Relevance Discrimination QA dataset designed to disrupt shortcut learning and improve 3D understanding. Our findings highlight the need for advanced evaluation and improved strategies for better 3D understanding in 3D VLMs.

arxiv情報

著者 Haoyuan Li,Yanpeng Zhou,Yufei Gao,Tao Tang,Jianhua Han,Yujie Yuan,Dave Zhenyu Chen,Jiawang Bian,Hang Xu,Xiaodan Liang
発行日 2025-06-05 17:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs はコメントを受け付けていません

Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

要約

深さマップは、フィードフォワード3Dガウススプラッティング(3DG)パイプラインで広く使用されており、新しいビュー合成のために3Dポイント雲に固定していません。
このアプローチは、効率的なトレーニング、既知のカメラポーズの使用、正確なジオメトリ推定などの利点を提供します。
ただし、オブジェクトの境界での深さの不連続性は、しばしば断片化されたポイントクラウドまたはスパースクラウドにつながり、品質を低下させます。これは、深さベースの表現のよく知られている制限です。
この問題に取り組むために、事前に訓練されたトランスによって予測されるポイントマップに基づいた新しい正規化損失であるPM-Lossを紹介します。
ポイントマップ自体は深度マップよりも精度が低い場合がありますが、特にオブジェクトの境界周辺では、幾何学的な滑らかさを効果的に実施します。
改善された深度マップにより、この方法により、さまざまなアーキテクチャやシーンにわたってフィードフォワード3DGを大幅に改善し、常により良いレンダリング結果を提供します。
プロジェクトページ:https://aim-uofa.github.io/pmloss

要約(オリジナル)

Depth maps are widely used in feed-forward 3D Gaussian Splatting (3DGS) pipelines by unprojecting them into 3D point clouds for novel view synthesis. This approach offers advantages such as efficient training, the use of known camera poses, and accurate geometry estimation. However, depth discontinuities at object boundaries often lead to fragmented or sparse point clouds, degrading rendering quality — a well-known limitation of depth-based representations. To tackle this issue, we introduce PM-Loss, a novel regularization loss based on a pointmap predicted by a pre-trained transformer. Although the pointmap itself may be less accurate than the depth map, it effectively enforces geometric smoothness, especially around object boundaries. With the improved depth map, our method significantly improves the feed-forward 3DGS across various architectures and scenes, delivering consistently better rendering results. Our project page: https://aim-uofa.github.io/PMLoss

arxiv情報

著者 Duochao Shi,Weijie Wang,Donny Y. Chen,Zeyu Zhang,Jia-Wang Bian,Bohan Zhuang,Chunhua Shen
発行日 2025-06-05 17:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting はコメントを受け付けていません

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

要約

ビデオの理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労しています。
既存のベンチマークは、短いビデオ、クローズセットクエリ、手がかりの注釈の欠如、およびマルチモーダルのカバレッジが弱いことによって制限されます。
このペーパーでは、497の長いビデオを超える1,027のマルチモーダル質問と5,845の注釈付きの手がかりを備えた手動で注文された手がかりのカウントベンチマークであるCG-AVカウントを紹介します。
ブラックボックスとホワイトボックスの両方の評価をサポートし、エンドツーエンドと推論ベースのカウントの両方の包括的なテストベッドとして機能します。
モデルのカウント機能を改善する方法を探るために、GRPOとカリキュラム学習で訓練されたモデルであるAVリーズンを提案し、関連するタスクからカウント能力を一般化することを提案します。
AV-Reasonerは、複数のベンチマークにわたって最先端の結果を達成し、強化学習の有効性を実証しています。
ただし、実験では、ドメイン外のベンチマークでは、言語空間での推論がパフォーマンスの向上をもたらさないことが示されています。
コードとベンチマークは、https://av-rasoner.github.ioで実現しています。

要約(オリジナル)

Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model’s counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.

arxiv情報

著者 Lidong Lu,Guo Chen,Zhiqi Li,Yicheng Liu,Tong Lu
発行日 2025-06-05 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs はコメントを受け付けていません

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

要約

Chain-of-Thought(COT)は、大規模な言語モデル(LLM)で数学的推論を大幅に強化していますが、マルチモーダルドメインに拡張することは依然として困難なままです。
既存の作品は、画像入力の同様のテキスト推論を採用するか、視覚信号を数学的なCOTにインターリーしようとします。
ただし、数学の問題解決のための3つの重要な制限に直面しています。粗粒化ボックス型の画像領域への依存、数学コンテンツに対するビジョンエンコーダーの限られた認識、視覚的修飾のための外部機能への依存です。
この論文では、Mint-Cotを提案し、考え方の視覚的推論のために数学的なインターリーブトークンを導入します。
Mint-Cotは、関連する視覚トークンをインターリーブトークンを介してテキストの推論ステップに互いに互換性を整えます。これは、数学の数値内の形状の視覚領域を動的に選択します。
この機能を強化するために、厳密なデータ生成パイプラインを伴う、各推論ステップをトークンレベルの視覚領域と並べる54kの数学的問題を含むMint-Cotデータセットを構築します。
さらに、3段階のミントコットトレーニング戦略を提示し、テキストのみのCOTSFT、インターリーブCOT SFT、およびミントCOT-7Bモデルを導出するインターリーブCOT RLを徐々に組み合わせます。
広範な実験は、Mint-COT-7BがMathvistaで +28.78%、MMSTARでそれぞれ28.78%、MINT-COT-7Bがベースラインモデルを上回る数学ドメインにおける効果的な視覚インターリーブ推論のための方法の有効性を示しています。
私たちのコードとデータは、https://github.com/xinyan-cxy/mint-cotで入手できます

要約(オリジナル)

Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT

arxiv情報

著者 Xinyan Chen,Renrui Zhang,Dongzhi Jiang,Aojun Zhou,Shilin Yan,Weifeng Lin,Hongsheng Li
発行日 2025-06-05 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning はコメントを受け付けていません

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

要約

最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダルモデル(ビデオLMM)の進歩を促進しました。
しかし、よく承認された長いビデオの希少性により、1時間にわたるビデオllmのトレーニングが不足していません。
このギャップを埋めるために、Videomarathonを紹介します。これは、大規模な1時間のビデオ命令に満ちたデータセットです。
このデータセットには、ビデオあたり3〜60分の多様なドメインから供給された約9,700時間の長いビデオが含まれています。
具体的には、3.3mの高品質のQAペアが含まれており、時間性、空間性、オブジェクト、アクション、シーン、イベントの6つの基本的なトピックにまたがっています。
既存のビデオ命令データセットと比較して、Videomarathonはトレーニングビデオの期間を最大1時間まで拡張し、短期および長期のビデオ理解の両方を必要とする22の多様なタスクをサポートします。
VideoMarathonに基づいて、時間スケールのビデオ言語モデリングのための強力で効率的なビデオ-lmmであるHour-llavaを提案します。
これにより、メモリ増強モジュールを活用することにより、1 fpsサンプリングで1時間のビデオトレーニングと推論が可能になります。これにより、キャッシュされたフルビデオコンテキストからユーザーの質問関連および空間的情報セマンティクスを適応的に統合します。
私たちの実験では、Hour-llavaは複数の長いビデオ言語ベンチマークで最高のパフォーマンスを達成し、ビデオ腫瘍データセットの高品質とHour-Lovaモデルの優位性を実証します。

要約(オリジナル)

Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.

arxiv情報

著者 Jingyang Lin,Jialian Wu,Ximeng Sun,Ze Wang,Jiang Liu,Yusheng Su,Xiaodong Yu,Hao Chen,Jiebo Luo,Zicheng Liu,Emad Barsoum
発行日 2025-06-05 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Unleashing Hour-Scale Video Training for Long Video-Language Understanding はコメントを受け付けていません