MVTamperBench: Evaluating Robustness of Vision-Language Models

要約

マルチモーダル大手言語モデル(MLLMS)は、ビデオ理解の大きな進歩を促進した視覚言語モデル(VLM)の最近の進歩です。
しかし、敵対的な改ざんや操作に対する彼らの脆弱性は未熟なままです。
このギャップに対処するために、\ textbf {mvtamperbench}を導入します。これは、5つの一般的な改ざん技術に対するMLLMの堅牢性を体系的に評価するベンチマークです。
監視干渉、ソーシャルメディアコンテンツの編集、誤報注入などの実際の視覚改ざんシナリオに基づいています。
MVTamperbenchは、〜3.4kのオリジナルビデオで構成され、19個の異なるビデオ操作タスクをカバーする約17kの改ざんされたクリップに拡張されました。
このベンチマークは、空間的および時間的一貫性の操作を検出するためのモデルに挑戦します。
15以上のモデルファミリから45の最近のMLLMを評価します。
改ざんの種類全体の回復力の大幅な変動性を明らかにし、パラメーター数が大きいほど堅牢性を保証しないことを示します。
MVTamperbenchは、ClickBaitの検出、有害なコンテンツの分布の防止、メディアプラットフォームでのポリシーの実施など、安全批判的なアプリケーションで改ざん抵抗力のあるMLLMを開発するための新しいベンチマークを設定します。
すべてのコード、データ、ベンチマークをリリースして、信頼できるビデオ理解のオープンリサーチを促進します。
コード:https://amitbcp.github.io/mvtamperbench/データ:https://huggingface.co/datasets/srikant86/mvtamperbench

要約(オリジナル)

Multimodal Large Language Models (MLLMs), are recent advancement of Vision-Language Models (VLMs) that have driven major advances in video understanding. However, their vulnerability to adversarial tampering and manipulations remains underexplored. To address this gap, we introduce \textbf{MVTamperBench}, a benchmark that systematically evaluates MLLM robustness against five prevalent tampering techniques: rotation, masking, substitution, repetition, and dropping; based on real-world visual tampering scenarios such as surveillance interference, social media content edits, and misinformation injection. MVTamperBench comprises ~3.4K original videos, expanded into over ~17K tampered clips covering 19 distinct video manipulation tasks. This benchmark challenges models to detect manipulations in spatial and temporal coherence. We evaluate 45 recent MLLMs from 15+ model families. We reveal substantial variability in resilience across tampering types and show that larger parameter counts do not necessarily guarantee robustness. MVTamperBench sets a new benchmark for developing tamper-resilient MLLM in safety-critical applications, including detecting clickbait, preventing harmful content distribution, and enforcing policies on media platforms. We release all code, data, and benchmark to foster open research in trustworthy video understanding. Code: https://amitbcp.github.io/MVTamperBench/ Data: https://huggingface.co/datasets/Srikant86/MVTamperBench

arxiv情報

著者 Amit Agarwal,Srikant Panda,Angeline Charles,Bhargava Kumar,Hitesh Patel,Priyaranjan Pattnayak,Taki Hasan Rafi,Tejaswini Kumar,Hansa Meghwani,Karan Gupta,Dong-Kyu Chae
発行日 2025-06-11 16:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, H.5.1 | MVTamperBench: Evaluating Robustness of Vision-Language Models はコメントを受け付けていません

Only-Style: Stylistic Consistency in Image Generation without Content Leakage

要約

一貫した参照視覚スタイルで画像を生成することは、挑戦的なコンピュータービジョンタスクのままです。
スタイル一貫性のある世代を目指して、セマンティックコンテンツを文体的要素から効果的に分離するための闘争を目的とした最先端の方法は、ターゲットへの参照として提供される画像からのコンテンツの漏れにつながります。
この課題に対処するために、スタイルのみを提案します。これは、文体的な一貫性を維持しながら、意味的に一貫した方法でコンテンツの漏れを緩和するように設計された方法です。
推論中にコンテンツの漏れをローカライズすることでスタイルのみが機能し、特に参照画像にサブジェクトを含む画像パッチ内で、スタイルアライメントプロセスを制御するパラメーターの適応チューニングを可能にします。
この適応プロセスは、漏れ除去とスタイルの一貫性のバランスをとります。
さらに、コンテンツ漏れのローカリゼーションは、参照標的画像ペアを与えられてスタンドアロンコンポーネントとして機能し、スタイルの参照の影響を制御するメソッド固有のパラメーターの適応チューニングを可能にします。
さらに、望ましくないコンテンツの漏れを避けるためのスタイル一貫性のある世代の成功を定量化するための新しい評価フレームワークを提案します。
私たちのアプローチは、多様なインスタンス全体の広範な評価を通じて、最先端の方法に対する大幅な改善を示しており、望ましくないコンテンツの漏れなしに一貫して堅牢なスタイルの一貫性を達成しています。

要約(オリジナル)

Generating images in a consistent reference visual style remains a challenging computer vision task. State-of-the-art methods aiming for style-consistent generation struggle to effectively separate semantic content from stylistic elements, leading to content leakage from the image provided as a reference to the targets. To address this challenge, we propose Only-Style: a method designed to mitigate content leakage in a semantically coherent manner while preserving stylistic consistency. Only-Style works by localizing content leakage during inference, allowing the adaptive tuning of a parameter that controls the style alignment process, specifically within the image patches containing the subject in the reference image. This adaptive process best balances stylistic consistency with leakage elimination. Moreover, the localization of content leakage can function as a standalone component, given a reference-target image pair, allowing the adaptive tuning of any method-specific parameter that provides control over the impact of the stylistic reference. In addition, we propose a novel evaluation framework to quantify the success of style-consistent generations in avoiding undesired content leakage. Our approach demonstrates a significant improvement over state-of-the-art methods through extensive evaluation across diverse instances, consistently achieving robust stylistic consistency without undesired content leakage.

arxiv情報

著者 Tilemachos Aravanis,Panagiotis Filntisis,Petros Maragos,George Retsinas
発行日 2025-06-11 16:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Only-Style: Stylistic Consistency in Image Generation without Content Leakage はコメントを受け付けていません

MetricHMR: Metric Human Mesh Recovery from Monocular Images

要約

単眼画像からの正確なグローバル翻訳を使用したメトリックヒトメッシュ回復のアプローチであるMetrichMR(メトリックヒトメッシュ回復)を紹介します。
深刻なスケールと深さのあいまいさに悩まされている既存のHMRメソッドとは対照的に、MetrichMRは再構築結果で幾何学的に合理的な体型とグローバルな翻訳を生成することができます。
この目的のために、最初にカメラモデルの以前のHMRメソッドを体系的に分析して、メトリックスケールのHMRを有効にする際の標準的な視点投影モデルの重要な役割を強調します。
次に、標準的な視点投影モデルの下で、メトリックHMRの許容可能なあいまいさの範囲を検証します。
最後に、追加のメトリック正規化モジュールなしでEND2ENDメトリックHMRの境界ボックス情報、カメラパラメーター、および幾何学的キューを共同でエンコードする標準的な視点投影に基づいて、レイマップを導入する新しいアプローチを提供します。
広範な実験は、屋内と野生の両方のシナリオでメトリックポーズ、形状、およびグローバルな翻訳の推定で、シーケンシャルなHMRメソッドと比較して、私たちの方法が最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

We introduce MetricHMR (Metric Human Mesh Recovery), an approach for metric human mesh recovery with accurate global translation from monocular images. In contrast to existing HMR methods that suffer from severe scale and depth ambiguity, MetricHMR is able to produce geometrically reasonable body shape and global translation in the reconstruction results. To this end, we first systematically analyze previous HMR methods on camera models to emphasize the critical role of the standard perspective projection model in enabling metric-scale HMR. We then validate the acceptable ambiguity range of metric HMR under the standard perspective projection model. Finally, we contribute a novel approach that introduces a ray map based on the standard perspective projection to jointly encode bounding-box information, camera parameters, and geometric cues for End2End metric HMR without any additional metric-regularization modules. Extensive experiments demonstrate that our method achieves state-of-the-art performance, even compared with sequential HMR methods, in metric pose, shape, and global translation estimation across both indoor and in-the-wild scenarios.

arxiv情報

著者 He Zhang,Chentao Song,Hongwen Zhang,Tao Yu
発行日 2025-06-11 16:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MetricHMR: Metric Human Mesh Recovery from Monocular Images はコメントを受け付けていません

Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering

要約

Hyperspectral Image(HSI)クラスタリングは、注釈なしで同様のピクセルを同じクラスに割り当てます。これは重要でありながら挑戦的な作業です。
大規模なHSIの場合、ほとんどの方法はスーパーピクセルのセグメンテーションに依存しており、グラフニューラルネットワーク(GNNS)に基づいてスーパーピクセルレベルのクラスタリングを実行します。
ただし、既存のGNNは入力HSIのスペクトル情報を完全に活用することはできず、不正確なスーパーピクセルトポロジグラフは、情報集約中の異なるクラスセマンティクスの混乱につながる可能性があります。
これらの課題に対処するために、まず、グラフ構造のHSIスーパーピクセルに合わせて調整された構造スペクトルグラフ畳み込み演算子(SSGCO)を提案し、空間的特徴とスペクトル特徴の共発現を通じて表現品質を向上させます。
第二に、スーパーピクセルのトポロジグラフのエッジウェイトを適応的に予測および改良するエビデンスガイド付き適応エッジ学習(EGAEL)モジュールを提案します。
提案された方法を対照的な学習フレームワークに統合して、表現学習とクラスタリングが同時に行われるクラスタリングを実現します。
実験は、提案された方法が、4つのHSIデータセットの最良の比較方法でクラスタリング精度を2.61%、6.06%、4.96%、3.15%改善することを示しています。
私たちのコードはhttps://github.com/jhqi/ssgco-egaelで入手できます。

要約(オリジナル)

Hyperspectral image (HSI) clustering assigns similar pixels to the same class without any annotations, which is an important yet challenging task. For large-scale HSIs, most methods rely on superpixel segmentation and perform superpixel-level clustering based on graph neural networks (GNNs). However, existing GNNs cannot fully exploit the spectral information of the input HSI, and the inaccurate superpixel topological graph may lead to the confusion of different class semantics during information aggregation. To address these challenges, we first propose a structural-spectral graph convolutional operator (SSGCO) tailored for graph-structured HSI superpixels to improve their representation quality through the co-extraction of spatial and spectral features. Second, we propose an evidence-guided adaptive edge learning (EGAEL) module that adaptively predicts and refines edge weights in the superpixel topological graph. We integrate the proposed method into a contrastive learning framework to achieve clustering, where representation learning and clustering are simultaneously conducted. Experiments demonstrate that the proposed method improves clustering accuracy by 2.61%, 6.06%, 4.96% and 3.15% over the best compared methods on four HSI datasets. Our code is available at https://github.com/jhqi/SSGCO-EGAEL.

arxiv情報

著者 Jianhan Qi,Yuheng Jia,Hui Liu,Junhui Hou
発行日 2025-06-11 16:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering はコメントを受け付けていません

RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation

要約

リモートセンシング画像のセマンティックセグメンテーションはさまざまなアプリケーションにとって重要ですが、そのパフォーマンスは、大規模で高品質のピクセルごとの注釈に大きく依存しており、有名で獲得に時間がかかります。
半監視セマンティックセグメンテーション(SSS)は、このデータ依存関係を緩和するための有望な代替手段を提供します。
ただし、既存のSSSメソッドは、限られたラベル付きデータと豊富な非標識データとの間の固有の分布の不一致に苦労し、最適ではない一般化につながります。
この問題を緩和するために、VFMSがこの分布ギャップを効果的に埋め、SSSに強力なセマンティックプライアーを提供できる堅牢な一般化機能を持っているため、Vision Foundation Models(VFMS)をSSSタスクに事前に訓練して導入しようとします。
これに触発されて、RS-MTDF(マルチティーチャーの蒸留と融合)を紹介します。これは、VFMに組み込まれた強力なセマンティック知識を活用して、リモートセンシングの半監視学習を導く新しいフレームワークです。
具体的には、RS-MTDFは、エキスパート教師として複数の冷凍VFM(DinoV2やClipなど)を採用しており、機能レベルの蒸留を利用して、学生の機能を堅牢な表現に合わせます。
識別力をさらに強化するために、蒸留された知識は学生のデコーダーにシームレスに融合されます。
3つの挑戦的なリモートセンシングデータセットでの広範な実験は、RS-MTDFが常に最先端のパフォーマンスを達成することを示しています。
特に、私たちの方法は、ラブダのさまざまなラベル比にわたって既存のアプローチよりも優れており、セマンティックカテゴリの大部分で最高のIOUを確保しています。
これらの結果は、リモートセンシングセグメンテーションの一般化とセマンティック理解の両方を大幅に向上させる上で、マルチティーチャーVFMガイダンスの有効性を強調しています。
アブレーション研究は、提案された各モジュールの寄与をさらに検証します。

要約(オリジナル)

Semantic segmentation in remote sensing images is crucial for various applications, yet its performance is heavily reliant on large-scale, high-quality pixel-wise annotations, which are notoriously expensive and time-consuming to acquire. Semi-supervised semantic segmentation (SSS) offers a promising alternative to mitigate this data dependency. However, existing SSS methods often struggle with the inherent distribution mismatch between limited labeled data and abundant unlabeled data, leading to suboptimal generalization. To alleviate this issue, we attempt to introduce the Vision Foundation Models (VFMs) pre-trained on vast and diverse datasets into the SSS task since VFMs possess robust generalization capabilities that can effectively bridge this distribution gap and provide strong semantic priors for SSS. Inspired by this, we introduce RS-MTDF (Multi-Teacher Distillation and Fusion), a novel framework that leverages the powerful semantic knowledge embedded in VFMs to guide semi-supervised learning in remote sensing. Specifically, RS-MTDF employs multiple frozen VFMs (e.g., DINOv2 and CLIP) as expert teachers, utilizing feature-level distillation to align student features with their robust representations. To further enhance discriminative power, the distilled knowledge is seamlessly fused into the student decoder. Extensive experiments on three challenging remote sensing datasets demonstrate that RS-MTDF consistently achieves state-of-the-art performance. Notably, our method outperforms existing approaches across various label ratios on LoveDA and secures the highest IoU in the majority of semantic categories. These results underscore the efficacy of multi-teacher VFM guidance in significantly enhancing both generalization and semantic understanding for remote sensing segmentation. Ablation studies further validate the contribution of each proposed module.

arxiv情報

著者 Jiayi Song,Kaiyu Li,Xiangyong Cao,Deyu Meng
発行日 2025-06-11 16:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation はコメントを受け付けていません

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

要約

Vision-Language-action(VLA)モデルがロボット工学の従来の模倣学習を保持するという約束の1つは、大規模なビジョン言語モデル(VLM)の広範な一般化能力を活用して、多用途の「ジェネラリスト」ロボットポリシーを生成することです。
ただし、VLAの現在の評価は不十分なままです。
従来の模倣学習ベンチマークは、言語の指示がないために不適切です。
言語を組み込んだVLAの新しいベンチマークには、しばしば限られた評価タスクが付いていることが多く、VLM Pretrainingがダウンストリームロボットポリシーの一般化能力にどの程度貢献するかを調査するつもりはありません。
一方、多くの研究は、さまざまな機関によって単独で設計された現実世界のロボットセットアップに依存しており、再現性とアクセシビリティの障壁を作成します。
このギャップに対処するために、言語の指導、ビジョン、およびオブジェクトにまたがる10のサブカテゴリにわたって50のシミュレーションベースのタスクの統一されたプローブスイートを導入します。
このスイートのいくつかの最先端のVLAアーキテクチャを体系的に評価して、一般化能力を理解しています。
我々の結果は、VLMバックボーンは、堅牢な知覚的理解と高レベルの計画を備えたVLAをVLASに寄付しますが、これは善意と呼ばれますが、これは正確な運動実行に確実に変換されません。分散型の観察に直面した場合、ポリシーはしばしば一貫性のある意図を示しますが、行動の実行において動きます。
さらに、アクションデータでの微調整は、元のVLMのジェネラリストの推論能力を侵食する可能性があります。
タスクスイートと評価コードをリリースして、将来のVLAの標準化されたベンチマークとして機能し、認識から行動へのギャップを埋めるための研究を推進します。
ソースコードを含む詳細については、https://ai4ce.github.io/int-act/をご覧ください。

要約(オリジナル)

One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, ‘generalist’ robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM’s generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/

arxiv情報

著者 Irving Fang,Juexiao Zhang,Shengbang Tong,Chen Feng
発行日 2025-06-11 16:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models はコメントを受け付けていません

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

要約

拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要求は、リソース制約のデバイスでの展開を妨げます。
トレーニング後の量子化(PTQ)は、マトリックス操作のbit幅を減らすことにより、有望なソリューションを提供します。
ただし、標準のPTQメソッドは外れ値と闘っており、より高い圧縮を達成するには、多くの場合、量子化前にモデルの重みと活性化を変換する必要があります。
この作業では、既存のアプローチを拡張し、アクティベーションを効果的に緩和する新しい線形変換であるHadanormを提案します。これは、Hadamard変換を適用する前にアクティベーション機能チャネルを正規化し、より積極的なアクティベーション量子化を可能にすることにより、外れ値を緩和します。
Hadanormは、変圧器ブロックのさまざまなコンポーネント全体の量子化誤差を一貫して減らし、最新の方法と比較して優れた効率パフォーマンスのトレードオフを達成することを実証します。

要約(オリジナル)

Diffusion models represent the cutting edge in image generation, but their high memory and computational demands hinder deployment on resource-constrained devices. Post-Training Quantization (PTQ) offers a promising solution by reducing the bitwidth of matrix operations. However, standard PTQ methods struggle with outliers, and achieving higher compression often requires transforming model weights and activations before quantization. In this work, we propose HadaNorm, a novel linear transformation that extends existing approaches and effectively mitigates outliers by normalizing activations feature channels before applying Hadamard transformations, enabling more aggressive activation quantization. We demonstrate that HadaNorm consistently reduces quantization error across the various components of transformer blocks, achieving superior efficiency-performance trade-offs when compared to state-of-the-art methods.

arxiv情報

著者 Marco Federici,Riccardo Del Chiaro,Boris van Breugel,Paul Whatmough,Markus Nagel
発行日 2025-06-11 16:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations はコメントを受け付けていません

Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers

要約

脳血管系における操縦可能なカテーテルとロボットのカテーテルの安全な航行には、カテーテルの形とポーズの認識が必要です。
現在、介入主義者に重大な認識負担がかけられており、複両面蛍光鏡検査画像からのカテーテルの動きを精神的に再構築および予測しています。
これらのカテーテルを追跡する努力は、平面セグメンテーションまたはかさばるセンシングインストゥルメンテーションに限定されており、これはニューロインタベーションで使用されるマイクロキャテターと互換性がありません。
この作業では、カテーテルには、複製蛍光透視法の下で同時形状と推定を可能にするように配置されたカスタム放射性睡マーカーが装備されています。
マーカー追跡の不確実性に対する感度を最小限に抑えるために、これらのマーカーの配置を導くために設計尺度が提案されています。
このアプローチは、1mm未満の形状追跡エラーと40度未満のカテーテルロールエラーで、2mm未満のマイクロキャテター用にファントム血管系をナビゲートするために展開されました。
この作業により、操縦可能なカテーテルは、複製イメージングの下で​​自律的にナビゲートできるようになります。

要約(オリジナル)

Safe navigation of steerable and robotic catheters in the cerebral vasculature requires awareness of the catheters shape and pose. Currently, a significant perception burden is placed on interventionalists to mentally reconstruct and predict catheter motions from biplane fluoroscopy images. Efforts to track these catheters are limited to planar segmentation or bulky sensing instrumentation, which are incompatible with microcatheters used in neurointervention. In this work, a catheter is equipped with custom radiopaque markers arranged to enable simultaneous shape and pose estimation under biplane fluoroscopy. A design measure is proposed to guide the arrangement of these markers to minimize sensitivity to marker tracking uncertainty. This approach was deployed for microcatheters smaller than 2mm OD navigating phantom vasculature with shape tracking errors less than 1mm and catheter roll errors below 40 degrees. This work can enable steerable catheters to autonomously navigate under biplane imaging.

arxiv情報

著者 Jared Lawson,Rohan Chitale,Nabil Simaan
発行日 2025-06-11 16:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers はコメントを受け付けていません

LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation

要約

3Dシーンを理解し、自然言語の指示に従って幅広いタスクを実行できる3D-VLジェネラリストの開発は、3D-VLコミュニティで長年の目標となっています。
最近の進歩にもかかわらず、3D-VLモデルは、能力と堅牢性の2Dカウンターパートにまだ遅れをとっており、ジェネラリストの基準に達していません。
3D-VLジェネラリストの開発に対する重要な障害は、効率的なシーン表現の欠如によって妨げられるデータのスケーラビリティにあります。
凝縮された特徴グリッド(CFG)に基づいて構築された3D-VLモデルであるLeo-VLを提案します。これは、トークンオーバーヘッドを大幅に削減しながら、2D認識と3D空間構造をブリッジする効率的なシーン表現です。
この効率は、3D-VLジェネラリストに対する大規模なトレーニングのロックを解除します。このトレーニングは、実世界の屋内シーンの4つのドメインとキャプションやダイアログなどの5つのタスクにまたがる700k以上の高品質の3D-VLデータをキュレートします。
LEO-VLは、SQA3D、MSQA、Beacon3Dなど、さまざまな3D QAベンチマークで最先端のパフォーマンスを実現しています。
アブレーション研究は、私たちの表現の効率、タスクとシーンの多様性の重要性、およびデータキュレーションの原則の妥当性を確認しています。
さらに、3D-VLモデルの堅牢性を高める新しいトレーニング後の目標であるScenedPoを紹介します。
私たちの調査結果が、スケーラブルで堅牢な3D-VLジェネラリストの進歩に貢献することを願っています。

要約(オリジナル)

Developing 3D-VL generalists capable of understanding 3D scenes and following natural language instructions to perform a wide range of tasks has been a long-standing goal in the 3D-VL community. Despite recent progress, 3D-VL models still lag behind their 2D counterparts in capability and robustness, falling short of the generalist standard. A key obstacle to developing 3D-VL generalists lies in data scalability, hindered by the lack of an efficient scene representation. We propose LEO-VL, a 3D-VL model built upon condensed feature grid (CFG), an efficient scene representation that bridges 2D perception and 3D spatial structure while significantly reducing token overhead. This efficiency unlocks large-scale training towards 3D-VL generalist, for which we curate over 700k high-quality 3D-VL data spanning four domains of real-world indoor scenes and five tasks such as captioning and dialogue. LEO-VL achieves state-of-the-art performance on a variety of 3D QA benchmarks, including SQA3D, MSQA, and Beacon3D. Ablation studies confirm the efficiency of our representation, the importance of task and scene diversity, and the validity of our data curation principle. Furthermore, we introduce SceneDPO, a novel post-training objective that enhances the robustness of 3D-VL models. We hope our findings contribute to the advancement of scalable and robust 3D-VL generalists.

arxiv情報

著者 Jiangyong Huang,Xiaojian Ma,Xiongkun Linghu,Yue Fan,Junchao He,Wenxin Tan,Qing Li,Song-Chun Zhu,Yixin Chen,Baoxiong Jia,Siyuan Huang
発行日 2025-06-11 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation はコメントを受け付けていません

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

要約

物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビデオ質問応答(VQA)のベンチマークデータセットであるCasualVQAを紹介します。
既存のVQAベンチマークは、実際のビデオの表面知覚的理解に焦点を当てる傾向があります。
CausalVQAは、実際のシナリオに基づいた挑戦的な質問を提示することにより重要なギャップを埋め、5つの質問タイプを使用して、異なるアクションとイベントの可能性のある結果を予測するモデルの能力に焦点を当て、反事実、仮説、予想、計画、および記述的です。
モデルが些細なショートカットを悪用することを妨げる品質管理メカニズムを設計し、モデルが言語の手がかりではなく深い視覚的理解に基づいて答えを必要とします。
現在のフロンティアマルチモーダルモデルは、特に予想と仮説的な質問で、ベンチマークの人間のパフォーマンスを大幅に下回っています。
これは、現在のシステムが、空間的な推論、物理的原則の理解、および実世界の設定で正確な予測を行うための可能な代替案の理解を活用するための課題を強調しています。

要約(オリジナル)

We introduce CausalVQA, a benchmark dataset for video question answering (VQA) composed of question-answer pairs that probe models’ understanding of causality in the physical world. Existing VQA benchmarks either tend to focus on surface perceptual understanding of real-world videos, or on narrow physical reasoning questions created using simulation environments. CausalVQA fills an important gap by presenting challenging questions that are grounded in real-world scenarios, while focusing on models’ ability to predict the likely outcomes of different actions and events through five question types: counterfactual, hypothetical, anticipation, planning and descriptive. We designed quality control mechanisms that prevent models from exploiting trivial shortcuts, requiring models to base their answers on deep visual understanding instead of linguistic cues. We find that current frontier multimodal models fall substantially below human performance on the benchmark, especially on anticipation and hypothetical questions. This highlights a challenge for current systems to leverage spatial-temporal reasoning, understanding of physical principles, and comprehension of possible alternatives to make accurate predictions in real-world settings.

arxiv情報

著者 Aaron Foss,Chloe Evans,Sasha Mitts,Koustuv Sinha,Ammar Rizvi,Justine T. Kao
発行日 2025-06-11 17:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 | CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models はコメントを受け付けていません