VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約

ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリケーションにまたがるデジタルメディアの基本的な柱として機能します。
ただし、以前の方法は、グローバルおよびローカルの両方のコンテキストを包括的に理解する必要性を見落としていることが多く、特に長いビデオでは、時空の側面の不正確で一貫性のない編集につながります。
このペーパーでは、グローバルおよびローカルビデオ編集のための統一された空間的ビデオ適応フレームワークを紹介し、一貫して微妙なビデオを編集することの制限を推進します。
まず、個々のフレーム内の局所的な一貫性を確保するために、テスト時間編集の適応を設計して、潜在的な編集方向とテキスト命令の一貫性を改善するための事前に訓練された画像編集モデルを適応させ、正確なローカル制御のためにマスクされた潜在変数を適応させます。
さらに、ビデオシーケンスに対するグローバルな一貫性を維持するために、キーフレーム内の一貫した注意変数を再帰的に収集し、シーケンス全体に戦略的に適用して編集効果を実現する空間的適応を導入します。
広範な実験は、ベースラインの方法と比較して、私たちのVIAアプローチは、ソースビデオにより忠実であり、時空の文脈でより首尾一貫した、そしてローカル制御がより正確な編集を生成することを示しています。
さらに重要なことは、VIAが数分で一貫した長いビデオ編集を実現し、長いビデオシーケンスにわたる高度なビデオ編集タスクの可能性を解き放つことができることを示しています。

要約(オリジナル)

Video editing serves as a fundamental pillar of digital media, spanning applications in entertainment, education, and professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistent edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal Video Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, we designed test-time editing adaptation to adapt a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapts masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that recursively gather consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potential for advanced video editing tasks over long video sequences.

arxiv情報

著者 Jing Gu,Yuwei Fang,Ivan Skorokhodov,Peter Wonka,Xinya Du,Sergey Tulyakov,Xin Eric Wang
発行日 2025-03-27 17:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing はコメントを受け付けていません

VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

要約

ビデオ生成は大幅に進歩しており、非現実的な出力の作成から、視覚的に説得力があり、一時的に一貫性のあるように見えるビデオの生成に進化しています。
これらのビデオ生成モデルを評価するために、Vbenchなどのベンチマークが忠実さを評価するために開発されました。これは、フレームごとの美学、時間的一貫性、基本的な迅速な順守などの要因を測定しています。
しかし、これらの側面は主に表面的な忠実さを表しており、ビデオが現実世界の原則に準拠するかどうかではなく、視覚的に説得力があるかどうかに焦点を当てています。
最近のモデルはこれらのメトリックでますますうまく機能していますが、視覚的にもっともらしいだけでなく根本的に現実的なビデオを生成するのに苦労しています。
ビデオ生成を通じて実際の「世界モデル」を達成するために、次のフロンティアは本質的な忠実さにあり、生成されたビデオが物理的法則、常識的推論、解剖学的正確性、および構成の完全性を順守することを保証します。
このレベルのリアリズムを達成することは、AI支援映画制作やシミュレートされた世界モデリングなどのアプリケーションにとって不可欠です。
このギャップを埋めるために、Vbench-2.0を導入します。VBench-2.0は、本質的な忠実さについてビデオ生成モデルを自動的に評価するように設計された次世代ベンチマークです。
vbench-2.0は、人間の忠実度、制御性、創造性、物理学、および常識の5つの重要な側面を評価し、それぞれがさらに微調整された能力に分類されます。
個々の寸法に合わせて、私たちの評価フレームワークは、最先端のVLMやLLMなどのジェネラリストと、ビデオ生成のために提案された異常検出方法を含む専門家を統合します。
私たちは、人間の判断との整合を確保するために、広範な注釈を実施します。
本質的な忠実さを超えて本質的な忠実さに向かって押し進めることにより、Vbench-2.0は、本質的な忠実さを追求して、次世代のビデオ生成モデルの新しい基準を設定することを目指しています。

要約(オリジナル)

Video generation has advanced significantly, evolving from producing unrealistic outputs to generating videos that appear visually convincing and temporally coherent. To evaluate these video generative models, benchmarks such as VBench have been developed to assess their faithfulness, measuring factors like per-frame aesthetics, temporal consistency, and basic prompt adherence. However, these aspects mainly represent superficial faithfulness, which focus on whether the video appears visually convincing rather than whether it adheres to real-world principles. While recent models perform increasingly well on these metrics, they still struggle to generate videos that are not just visually plausible but fundamentally realistic. To achieve real ‘world models’ through video generation, the next frontier lies in intrinsic faithfulness to ensure that generated videos adhere to physical laws, commonsense reasoning, anatomical correctness, and compositional integrity. Achieving this level of realism is essential for applications such as AI-assisted filmmaking and simulated world modeling. To bridge this gap, we introduce VBench-2.0, a next-generation benchmark designed to automatically evaluate video generative models for their intrinsic faithfulness. VBench-2.0 assesses five key dimensions: Human Fidelity, Controllability, Creativity, Physics, and Commonsense, each further broken down into fine-grained capabilities. Tailored for individual dimensions, our evaluation framework integrates generalists such as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection methods proposed for video generation. We conduct extensive annotations to ensure alignment with human judgment. By pushing beyond superficial faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new standard for the next generation of video generative models in pursuit of intrinsic faithfulness.

arxiv情報

著者 Dian Zheng,Ziqi Huang,Hongbo Liu,Kai Zou,Yinan He,Fan Zhang,Yuanhan Zhang,Jingwen He,Wei-Shi Zheng,Yu Qiao,Ziwei Liu
発行日 2025-03-27 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness はコメントを受け付けていません

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

要約

Lumina-Image 2.0を紹介します。これは、以前の作業であるLumina-Nextと比較して大きな進歩を達成する高度なテキストからイメージから画像の生成フレームワークです。
Lumina-Image 2.0は、2つの重要な原則に基づいて構築されています。(1)統一 – テキストと画像のトークンを共同シーケンスとして扱い、自然なクロスモーダル相互作用を可能にし、シームレスなタスク拡張を可能にする統一アーキテクチャ(統一されたネクスト)を採用します。
また、高品質のキャプションは、セマンティックに適切に整合したテキストイメージトレーニングペアを提供できるため、T2I生成タスク用に特別に設計された統一されたキャプションシステム、Unicaped(UNICAP)を導入します。
UniCapは、包括的かつ正確なキャプションの生成、収束の加速、迅速な順守の強化に優れています。
(2)効率 – 提案されたモデルの効率を改善するために、マルチステージプログレッシブトレーニング戦略を開発し、画質を損なうことなく推論加速技術を導入します。
アカデミックベンチマークとパブリックテキストから画像のアリーナに関する広範な評価は、Lumina-Image 2.0が2.6Bのパラメーターのみでも強力なパフォーマンスを提供し、スケーラビリティと設計効率を強調していることを示しています。
https://github.com/alpha-vllm/lumina-image-2.0でトレーニングの詳細、コード、モデルをリリースしました。

要約(オリジナル)

We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification – it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency – to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.

arxiv情報

著者 Qi Qin,Le Zhuo,Yi Xin,Ruoyi Du,Zhen Li,Bin Fu,Yiting Lu,Jiakang Yuan,Xinyue Li,Dongyang Liu,Xiangyang Zhu,Manyuan Zhang,Will Beddow,Erwann Millon,Victor Perez,Wenhai Wang,Conghui He,Bo Zhang,Xiaohong Liu,Hongsheng Li,Yu Qiao,Chang Xu,Peng Gao
発行日 2025-03-27 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Lumina-Image 2.0: A Unified and Efficient Image Generative Framework はコメントを受け付けていません

Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck

要約

この作業では、大規模なビジョン言語モデル(LVLM)のビジョントークンを、(a)生成タスクと(b)識別タスクに同時に適した表現に圧縮することを目指しています。
LVLM自体を使用して視覚情報をタスクに依存しない方法で圧縮する新しい圧縮アプローチを提案します。
FWD2BOTのコアには、「二重方向パス」トレーニング戦略が存在します。これにより、最初のフォワードパス中に、LLM(LVLM)は、視覚情報を少数の略式トークンに凝縮することによりボトルネックを作成します。
次に、同じLLMを使用して、2番目のフォワードパスは、画像のものの直接置換として使用される要約トークンとともに言語命令を処理します。
トレーニング信号は2つの損失によって提供されます。2回目のパスの後に適用される自動回帰のものは、圧縮の直接的な最適化目標を提供するものと、最初のパスの後に適用される対照的な損失は、特に識別タスクの表現強度をさらに高めることです。
トレーニングは、ステージ固有のアダプターによってさらに強化されます。
提案された方法には、詳細なアブレーション研究によって伴います。
全体として、FWD2BOTは、生成タスクと識別タスクの両方に適した非常に情報に基づいた圧縮表現をもたらします。
生成タスクの場合、生成機能を損なうことなく2倍高い圧縮率を提供し、新しい最先端の結果を設定します。
差別的なタスクについては、画像の取得と構成性に関する新しい最先端の最先端を設定します。

要約(オリジナル)

In this work, we aim to compress the vision tokens of a Large Vision Language Model (LVLM) into a representation that is simultaneously suitable for (a) generative and (b) discriminative tasks, (c) is nearly lossless, and (d) is storage-efficient. We propose a novel compression approach, called Fwd2Bot, that uses the LVLM itself to compress the visual information in a task-agnostic manner. At the core of Fwd2bot there exists a ‘double-forward pass’ training strategy, whereby, during the first forward pass, the LLM (of the LVLM) creates a bottleneck by condensing the visual information into a small number of summary tokens. Then, using the same LLM, the second forward pass processes the language instruction(s) alongside the summary tokens, used as a direct replacement for the image ones. The training signal is provided by two losses: an autoregressive one applied after the second pass that provides a direct optimization objective for compression, and a contrastive loss, applied after the first pass, that further boosts the representation strength, especially for discriminative tasks. The training is further enhanced by stage-specific adapters. We accompany the proposed method by an in-depth ablation study. Overall, Fwd2Bot results in highly-informative compressed representations suitable for both generative and discriminative tasks. For generative tasks, we offer a 2x higher compression rate without compromising the generative capabilities, setting a new state-of-the-art result. For discriminative tasks, we set a new state-of-the-art on image retrieval and compositionality.

arxiv情報

著者 Adrian Bulat,Yassine Ouali,Georgios Tzimiropoulos
発行日 2025-03-27 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck はコメントを受け付けていません

Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video

要約

このペーパーでは、カジュアルなビデオの動的なシーンを理解するための統一されたアプローチを紹介します。
ビジョン言語、ビデオ深度予測、モーショントラッキング、セグメンテーションモデルなどの大規模な前提型ビジョンファンデーションモデルは、有望な機能を提供します。
ただし、包括的な4D理解のための単一のモデルのトレーニングは依然として困難です。
静的/動的再構成、カメラのポーズ推定、密な3Dモーショントラッキングなど、複数の前提条件のモデルを活用して動的な3Dモデリングを進める多段階の最適化フレームワークであるUNI4Dを導入します。
私たちの結果は、優れた視覚品質を備えた動的4Dモデリングの最先端のパフォーマンスを示しています。
特に、UNI4Dは再訓練や微調整を必要とせず、4D理解のために視覚基盤モデルを再利用することの有効性を強調しています。

要約(オリジナル)

This paper presents a unified approach to understanding dynamic scenes from casual videos. Large pretrained vision foundation models, such as vision-language, video depth prediction, motion tracking, and segmentation models, offer promising capabilities. However, training a single model for comprehensive 4D understanding remains challenging. We introduce Uni4D, a multi-stage optimization framework that harnesses multiple pretrained models to advance dynamic 3D modeling, including static/dynamic reconstruction, camera pose estimation, and dense 3D motion tracking. Our results show state-of-the-art performance in dynamic 4D modeling with superior visual quality. Notably, Uni4D requires no retraining or fine-tuning, highlighting the effectiveness of repurposing visual foundation models for 4D understanding.

arxiv情報

著者 David Yifan Yao,Albert J. Zhai,Shenlong Wang
発行日 2025-03-27 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video はコメントを受け付けていません

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

要約

このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善することです。
この目的のために、テキストからイメージへの再ランキングに使用できるように、大規模な事前訓練を受けたビジョン言語モデルのパフォーマンスを高めることができる新しいフレームワークを紹介します。
言語イメージの強化されたプリトレーニング(ELIP)は、単純なMLPマッピングネットワークを介してテキストクエリを使用して、VIT画像エンコーディングを条件付ける視覚プロンプトのセットを予測します。
ELIPは、一般的に使用されるクリップ、Siglip、Blip-2ネットワークに簡単に適用できます。
限られたコンピューティングリソースでアーキテクチャをトレーニングするために、グローバルなハードサンプルマイニングと大規模なデータセットのキュレーションを含む「学生に優しい」ベストプラクティスを開発します。
評価側では、2つの新しい分布(OOD)ベンチマーク、オクルドココとイメージェネットRを設定して、モデルの異なるドメインへのゼロショット一般化を評価します。
結果は、ELIPがClip/Siglip/Siglip-2テキストからイメージからイメージの検索パフォーマンスを大幅に向上させ、いくつかのベンチマークでBLIP-2を上回ることを示しており、OODデータセットに適応する簡単な手段を提供します。

要約(オリジナル)

The objective in this paper is to improve the performance of text-to-image retrieval. To this end, we introduce a new framework that can boost the performance of large-scale pre-trained vision-language models, so that they can be used for text-to-image re-ranking. The approach, Enhanced Language-Image Pre-training (ELIP), uses the text query, via a simple MLP mapping network, to predict a set of visual prompts to condition the ViT image encoding. ELIP can easily be applied to the commonly used CLIP, SigLIP and BLIP-2 networks. To train the architecture with limited computing resources, we develop a ‘student friendly’ best practice, involving global hard sample mining, and curation of a large-scale dataset. On the evaluation side, we set up two new out-of-distribution (OOD) benchmarks, Occluded COCO and ImageNet-R, to assess the zero-shot generalisation of the models to different domains. The results demonstrate that ELIP significantly boosts CLIP/SigLIP/SigLIP-2 text-to-image retrieval performance and outperforms BLIP-2 on several benchmarks, as well as providing an easy means to adapt to OOD datasets.

arxiv情報

著者 Guanqi Zhan,Yuanpei Liu,Kai Han,Weidi Xie,Andrew Zisserman
発行日 2025-03-27 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval はコメントを受け付けていません

Exploring the Evolution of Physics Cognition in Video Generation: A Survey

要約

ビデオ生成の最近の進歩は、特に拡散モデルの急速な進歩により、大きな進歩を目撃しました。
それにもかかわらず、肉体的認知の不足は徐々に広範囲にわたる注目を集めています – 生成されたコンテンツは、しばしば物理学の基本的な法則に違反し、「視覚的リアリズムが肉体的な不条理」のジレンマに陥ります。
研究者は、ビデオ生成における物理的忠実度の重要性をますます認識し始め、運動表現や物理的知識などのヒューリスティックな身体的認知を生成システムに統合して、実際の動的シナリオをシミュレートしようとしました。
この分野の体系的な概要の欠如を考慮すると、この調査は、このギャップを埋めるために、建築設計とそのアプリケーションの包括的な要約を提供することを目的としています。
具体的には、3層の分類法を提案しながら、認知科学の観点からビデオ生成における身体認知の進化プロセスについて議論し、整理します。
その後、このドメインに固有の重要な課題を強調し、将来の研究のための潜在的な経路を描き、学界と産業の両方で議論のフロンティアを前進させることに貢献します。
構造化されたレビューと学際的分析を通じて、この調査は、解釈可能で制御可能な、身体的に一貫したビデオ生成パラダイムを開発するための方向指導を提供することを目的としています。

要約(オリジナル)

Recent advancements in video generation have witnessed significant progress, especially with the rapid advancement of diffusion models. Despite this, their deficiencies in physical cognition have gradually received widespread attention – generated content often violates the fundamental laws of physics, falling into the dilemma of ”visual realism but physical absurdity’. Researchers began to increasingly recognize the importance of physical fidelity in video generation and attempted to integrate heuristic physical cognition such as motion representations and physical knowledge into generative systems to simulate real-world dynamic scenarios. Considering the lack of a systematic overview in this field, this survey aims to provide a comprehensive summary of architecture designs and their applications to fill this gap. Specifically, we discuss and organize the evolutionary process of physical cognition in video generation from a cognitive science perspective, while proposing a three-tier taxonomy: 1) basic schema perception for generation, 2) passive cognition of physical knowledge for generation, and 3) active cognition for world simulation, encompassing state-of-the-art methods, classical paradigms, and benchmarks. Subsequently, we emphasize the inherent key challenges in this domain and delineate potential pathways for future research, contributing to advancing the frontiers of discussion in both academia and industry. Through structured review and interdisciplinary analysis, this survey aims to provide directional guidance for developing interpretable, controllable, and physically consistent video generation paradigms, thereby propelling generative models from the stage of ”visual mimicry” towards a new phase of ”human-like physical comprehension”.

arxiv情報

著者 Minghui Lin,Xiang Wang,Yishan Wang,Shu Wang,Fengqi Dai,Pengxiang Ding,Cunxiang Wang,Zhengrong Zuo,Nong Sang,Siteng Huang,Donglin Wang
発行日 2025-03-27 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring the Evolution of Physics Cognition in Video Generation: A Survey はコメントを受け付けていません

Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence

要約

キャラクターの形状の対応を確立することは、コンピュータービジョンとグラフィックスにおける重要かつ基本的なタスクであり、再同では、再同では、属性転送、形状補間などの多様なアプリケーションがあります。
現在の支配的な機能マップ法は、制御されたシナリオでは効果的ですが、非誤った形状の矛盾などのより複雑な課題を伴う実際の状況での闘争です。
これに応じて、登録への登録方法を再検討し、より安定した形状の対応推定の可能性をタップします。
不安定な変形や、慎重な事前整列または高品質の初期3D対応の必要性など、それらの一般的な問題を克服するために、安定したスコア:3D形状の対応のための安定した登録ベースのフレームワークを紹介します。
最初に、信頼性が高く安定した2Dマッピングを保証する2D文字対応の基礎モデルを再利用します。
重要なことに、メッシュの変形をガイドするために2D対応を活用する新しいセマンティックフローガイド付き登録アプローチを提案します。
私たちのフレームワークは、挑戦的なシナリオで既存の方法を大幅に上回り、結果に示されているように、幅広い実際のアプリケーションの可能性をもたらします。

要約(オリジナル)

Establishing character shape correspondence is a critical and fundamental task in computer vision and graphics, with diverse applications including re-topology, attribute transfer, and shape interpolation. Current dominant functional map methods, while effective in controlled scenarios, struggle in real situations with more complex challenges such as non-isometric shape discrepancies. In response, we revisit registration-for-correspondence methods and tap their potential for more stable shape correspondence estimation. To overcome their common issues including unstable deformations and the necessity for careful pre-alignment or high-quality initial 3D correspondences, we introduce Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence. We first re-purpose a foundation model for 2D character correspondence that ensures reliable and stable 2D mappings. Crucially, we propose a novel Semantic Flow Guided Registration approach that leverages 2D correspondence to guide mesh deformations. Our framework significantly surpasses existing methods in challenging scenarios, and brings possibilities for a wide array of real applications, as demonstrated in our results.

arxiv情報

著者 Haolin Liu,Xiaohang Zhan,Zizheng Yan,Zhongjin Luo,Yuxin Wen,Xiaoguang Han
発行日 2025-03-27 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence はコメントを受け付けていません

Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying

要約

3Dガウスのスプラッティングでのオープンボキャブラリークエリは、特定のテキストクエリに基づいて3Dガウス表現内の意味的に関連する領域を特定することを目的としています。
Langsplatなどの以前の作業は、2Dレンダリング上のセグメンテーションマスクの形でこれらの領域を取得することにより、このタスクに対処しました。
最近では、OpenGaussianは3Dガウスのサブセットを直接選択するポイントレベルのクエリを導入しました。
この作業では、Langsplatのフレームワークに基づいたポイントレベルのクエリメソッドを提案します。
私たちのアプローチは、2つの重要な方法でフレームワークを改善します。(a)モデル2(SAM2)のセグメントからのマスクレットを活用して、言語ガウスを蒸留するためのセマンティックな一貫したグラウンドを確立します。
(b)最初に蒸留された地下真実を取得し、その後、個々のガウスを照会するためにグラウンドトゥルースを使用する新しい2段階のクエリアプローチを導入します。
3つのベンチマークデータセットでの実験的評価は、提案された方法が最先端のアプローチと比較してより良いパフォーマンスを達成することを示しています。
たとえば、この方法は、3D-OVSデータセットで+20.42のMIOU改善を実現します。

要約(オリジナル)

Open-vocabulary querying in 3D Gaussian Splatting aims to identify semantically relevant regions within a 3D Gaussian representation based on a given text query. Prior work, such as LangSplat, addressed this task by retrieving these regions in the form of segmentation masks on 2D renderings. More recently, OpenGaussian introduced point-level querying, which directly selects a subset of 3D Gaussians. In this work, we propose a point-level querying method that builds upon LangSplat’s framework. Our approach improves the framework in two key ways: (a) we leverage masklets from the Segment Anything Model 2 (SAM2) to establish semantic consistent ground-truth for distilling the language Gaussians; (b) we introduces a novel two-step querying approach that first retrieves the distilled ground-truth and subsequently uses the ground-truth to query the individual Gaussians. Experimental evaluations on three benchmark datasets demonstrate that the proposed method achieves better performance compared to state-of-the-art approaches. For instance, our method achieves an mIoU improvement of +20.42 on the 3D-OVS dataset.

arxiv情報

著者 Hairong Yin,Huangying Zhan,Yi Xu,Raymond A. Yeh
発行日 2025-03-27 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying はコメントを受け付けていません

Gaga: Group Any Gaussians via 3D-aware Memory Bank

要約

Gagaを紹介します。Gagaは、ゼロショットクラスに依存しないセグメンテーションモデルによって予測される一貫性のない2Dマスクを活用することにより、オープンワールド3Dシーンを再構築およびセグメントするフレームワークです。
ビデオオブジェクトの追跡または対照学習方法に依存する以前の3Dシーンセグメンテーションアプローチとは対照的に、Gagaは空間情報を利用し、新しい3Dに認識されたメモリバンクを通じて多様なカメラポーズにオブジェクトマスクを効果的に関連付けます。
トレーニング画像の継続的なビューの変化の仮定を排除することにより、ガガはカメラのポーズの変動に対する堅牢性、特にまばらにサンプリングされた画像に有益であり、正確なマスクラベルの一貫性を確保します。
さらに、Gagaは多様なソースからの2Dセグメンテーションマスクに対応し、異なるオープンワールドのゼロショットクラスに依存しないセグメンテーションモデルで堅牢なパフォーマンスを示し、その汎用性を大幅に向上させます。
広範な定性的および定量的評価は、Gagaが最新の方法に対して好意的に機能し、3Dシーンの理解や操作などの実際のアプリケーションの可能性を強調することを示しています。

要約(オリジナル)

We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot class-agnostic segmentation models. Contrasted to prior 3D scene segmentation approaches that rely on video object tracking or contrastive learning methods, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses through a novel 3D-aware memory bank. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot class-agnostic segmentation models, significantly enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as 3D scene understanding and manipulation.

arxiv情報

著者 Weijie Lyu,Xueting Li,Abhijit Kundu,Yi-Hsuan Tsai,Ming-Hsuan Yang
発行日 2025-03-27 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaga: Group Any Gaussians via 3D-aware Memory Bank はコメントを受け付けていません