AugMapNet: Improving Spatial Latent Structure via BEV Grid Augmentation for Enhanced Vectorized Online HD Map Construction

要約

自律運転には、レーンや横断歩道などのインフラストラクチャ要素を理解する必要があります。
安全にナビゲートするには、この理解はセンサーデータからリアルタイムで導き出されなければならず、ベクトル化された形式で表現する必要があります。
学習した鳥瞰図(BEV)エンコーダーは、一般的に、複数のビューのカメラ画像のセットを1つのジョイント潜在BEVグリッドに組み合わせるために使用されます。
伝統的に、この潜在的な空間から、中間ラスターマップが予測され、密な空間的監督を提供しますが、望ましいベクトル化された形式への後処理が必要です。
より最近のモデルは、ベクトル化されたマップデコーダーを使用してポリリンとしてインフラストラクチャ要素を直接導き出し、インスタンスレベルの情報を提供します。
私たちのアプローチであるAugmentation Map Network(AugMapNet)は、潜在的なBEVの表現を大幅に強化する新しい技術である潜在的なBEVグリッド増強を提案しています。
AugMapNetは、既存のアーキテクチャよりも効果的にベクトルデコードと密な空間監督を組み合わせているが、統合するために簡単であり、補助的な監督と同じくらい一般的なままである。
NuscenesとArgoverse2データセットの実験は、60mの範囲でのStreamMapNetベースラインで最大13.3%のベクトル化されたMAP予測パフォーマンスの大幅な改善と、より大きな範囲での改善の大幅な改善を示しています。
メソッドを別のベースラインに適用することにより、転送可能性を確認し、同様の改善を見つけます。
潜在的なBEVグリッドの詳細な分析は、AugMapNetのより構造化された潜在スペースを確認し、純粋なパフォーマンスの改善を超えた斬新な概念の価値を示しています。
コードはまもなくリリースされます。

要約(オリジナル)

Autonomous driving requires an understanding of the infrastructure elements, such as lanes and crosswalks. To navigate safely, this understanding must be derived from sensor data in real-time and needs to be represented in vectorized form. Learned Bird’s-Eye View (BEV) encoders are commonly used to combine a set of camera images from multiple views into one joint latent BEV grid. Traditionally, from this latent space, an intermediate raster map is predicted, providing dense spatial supervision but requiring post-processing into the desired vectorized form. More recent models directly derive infrastructure elements as polylines using vectorized map decoders, providing instance-level information. Our approach, Augmentation Map Network (AugMapNet), proposes latent BEV grid augmentation, a novel technique that significantly enhances the latent BEV representation. AugMapNet combines vector decoding and dense spatial supervision more effectively than existing architectures while remaining as straightforward to integrate and as generic as auxiliary supervision. Experiments on nuScenes and Argoverse2 datasets demonstrate significant improvements in vectorized map prediction performance up to 13.3% over the StreamMapNet baseline on 60m range and greater improvements on larger ranges. We confirm transferability by applying our method to another baseline and find similar improvements. A detailed analysis of the latent BEV grid confirms a more structured latent space of AugMapNet and shows the value of our novel concept beyond pure performance improvement. The code will be released soon.

arxiv情報

著者 Thomas Monninger,Md Zafar Anwar,Stanislaw Antol,Steffen Staab,Sihao Ding
発行日 2025-03-17 17:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AugMapNet: Improving Spatial Latent Structure via BEV Grid Augmentation for Enhanced Vectorized Online HD Map Construction はコメントを受け付けていません

Less Biased Noise Scale Estimation for Threshold-Robust RANSAC

要約

画像マッチングを通じて相対的なポーズを堅牢に推定するための金標準はRANSACです。
RANSACは強力ですが、推定モデルの下での対応の誤差がコンセンサスセットに含まれるほど十分に小さいかどうかを判断するInlierのしきい値を設定する必要があります。
このしきい値の設定は通常、手作業で行われ、グラウンドトゥルースデータにアクセスせずにチューニングすることは困難です。
したがって、最適なしきい値を自動的に決定できる方法が望ましいでしょう。
このホワイトペーパーでは、Inlierノイズスケールの推定を再検討します。これは、Inlierノイズスケールが最適なしきい値に直線的であるため、魅力的なアプローチです。
ノイズスケール推定方法SIMFITを再検討し、ノイズスケールの推定値にバイアスを見つけます。
特に、モデルを使用してモデルを使用して、インライアノイズを推定するものとして過小評価し、しきい値自体を考慮しないようにします。
第二に、シーン内の最適なしきい値はほぼ一定であるため、推定値をフィルタリングすることにより、SIMFIT ++のマルチペア拡張を提案します。これにより、結果が改善されます。
私たちのアプローチは、図1に示すように、さまざまなしきい値にわたって堅牢なパフォーマンスをもたらします。

要約(オリジナル)

The gold-standard for robustly estimating relative pose through image matching is RANSAC. While RANSAC is powerful, it requires setting the inlier threshold that determines whether the error of a correspondence under an estimated model is sufficiently small to be included in its consensus set. Setting this threshold is typically done by hand, and is difficult to tune without a access to ground truth data. Thus, a method capable of automatically determining the optimal threshold would be desirable. In this paper we revisit inlier noise scale estimation, which is an attractive approach as the inlier noise scale is linear to the optimal threshold. We revisit the noise scale estimation method SIMFIT and find bias in the estimate of the noise scale. In particular, we fix underestimates from using the same data for fitting the model as estimating the inlier noise, and from not taking the threshold itself into account. Secondly, since the optimal threshold within a scene is approximately constant we propose a multi-pair extension of SIMFIT++, by filtering of estimates, which improves results. Our approach yields robust performance across a range of thresholds, shown in Figure 1.

arxiv情報

著者 Johan Edstedt
発行日 2025-03-17 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Less Biased Noise Scale Estimation for Threshold-Robust RANSAC はコメントを受け付けていません

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

要約

要素レベルの視覚操作はデジタルコンテンツの作成に不可欠ですが、現在の拡散ベースの方法には、従来のツールの精度と柔軟性がありません。
この作業では、確率的BLOBベースの表現を使用して要素レベルの生成と編集を統合するフレームワークであるBlobCtrlを紹介します。
ブロブを視覚的なプリミティブとして使用することにより、私たちのアプローチは、空間的位置、セマンティックコンテンツ、およびアイデンティティ情報を効果的に分離し、表現し、正確な要素レベルの操作を可能にします。
私たちの主な貢献には、次のものが含まれます。1)シームレスな前景群統合のための階層的特徴融合を備えた二重分岐拡散アーキテクチャ。
2)カスタマイズされたデータ増強とスコア機能を備えた自己監視されたトレーニングパラダイム。
3)忠実度と多様性のバランスを取るための制御可能なドロップアウト戦略。
さらなる研究をサポートするために、大規模なトレーニングのためにBlobdataを紹介し、体系的な評価のためにBlobbenchを紹介します。
実験は、BlobCtrlが計算効率を維持しながら、さまざまな要素レベルの操作タスクに優れており、正確で柔軟な視覚コンテンツの作成のための実用的なソリューションを提供することを示しています。
プロジェクトページ:https://liyaowei-stu.github.io/project/blobctrl/

要約(オリジナル)

Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

arxiv情報

著者 Yaowei Li,Lingen Li,Zhaoyang Zhang,Xiaoyu Li,Guangzhi Wang,Hongxiang Li,Xiaodong Cun,Ying Shan,Yuexian Zou
発行日 2025-03-17 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing はコメントを受け付けていません

WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes

要約

3D再建技術の急速な発展により、4D再建の研究も進歩しています。既存の4D再構成方法は、高品質の4Dシーンを生成する可能性があります。
ただし、マルチビュービデオデータを取得する際の課題により、現在の4D再構成ベンチマークは、限られたシナリオ内で、ダンスなどの実施されたアクションを主に表示します。
実際のシナリオでは、多くのシーンには広範囲の空間的な動きが含まれ、既存の4D再構成データセットの制限を強調しています。
さらに、既存の4D再構築方法は、3Dオブジェクトのダイナミクスを推定するために変形場に依存していますが、変形場は広範囲の空間的動きに苦しんでおり、広範囲の空間的動きで高品質の4Dシーン再構成を達成する能力を制限します。
このホワイトペーパーでは、重要なオブジェクトの空間的な動きを備えた4Dシーンの再構築に焦点を当て、新しい4D再構成ベンチマークwiderange4dを提案します。
このベンチマークには、大規模な空間的変動を備えたリッチ4Dシーンデータが含まれており、4D生成方法の生成能力をより包括的に評価できるようになります。
さらに、さまざまな複雑な4Dシーン再構成タスクで安定した高品質の4D結果を生成する新しい4D再構築方法であるProgress4Dを導入します。
Widerange4Dで定量的比較実験と定性的比較の両方の実験を実施しており、Progress4Dが既存の最先端の4D再構築方法を上回ることを示しています。
プロジェクト:https://github.com/gen-verse/widerange4d

要約(オリジナル)

With the rapid development of 3D reconstruction technology, research in 4D reconstruction is also advancing, existing 4D reconstruction methods can generate high-quality 4D scenes. However, due to the challenges in acquiring multi-view video data, the current 4D reconstruction benchmarks mainly display actions performed in place, such as dancing, within limited scenarios. In practical scenarios, many scenes involve wide-range spatial movements, highlighting the limitations of existing 4D reconstruction datasets. Additionally, existing 4D reconstruction methods rely on deformation fields to estimate the dynamics of 3D objects, but deformation fields struggle with wide-range spatial movements, which limits the ability to achieve high-quality 4D scene reconstruction with wide-range spatial movements. In this paper, we focus on 4D scene reconstruction with significant object spatial movements and propose a novel 4D reconstruction benchmark, WideRange4D. This benchmark includes rich 4D scene data with large spatial variations, allowing for a more comprehensive evaluation of the generation capabilities of 4D generation methods. Furthermore, we introduce a new 4D reconstruction method, Progress4D, which generates stable and high-quality 4D results across various complex 4D scene reconstruction tasks. We conduct both quantitative and qualitative comparison experiments on WideRange4D, showing that our Progress4D outperforms existing state-of-the-art 4D reconstruction methods. Project: https://github.com/Gen-Verse/WideRange4D

arxiv情報

著者 Ling Yang,Kaixin Zhu,Juanxi Tian,Bohan Zeng,Mingbao Lin,Hongjuan Pei,Wentao Zhang,Shuicheng Yan
発行日 2025-03-17 17:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes はコメントを受け付けていません

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

要約

共同視覚生成と連続的な視覚トークンの活用を理解するための統一された自己回帰フレームワークであるUniflidを提示します。
統一された自動脱出アーキテクチャは、マルチモーダルイメージとテキスト入力をプロセスし、テキスト用の離散トークンと画像の連続トークンを生成します。
画像生成と理解のタスクの間には固有のトレードオフがありますが、慎重に調整されたトレーニングレシピにより、お互いを改善できるようになります。
適切な損失バランスの重量を選択することにより、統一モデルは、両方のタスクのシングルタスクベースラインの結果に匹敵する、またはそれを超える結果を達成します。
さらに、トレーニング中により強力な事前訓練を受けたLLMとランダムオーダー生成を採用することが、この統一されたフレームワーク内で高忠実度のイメージ生成を達成するために重要であることを実証します。
Gemmaモデルシリーズに基づいて構築されたUnifluidは、画像生成と理解の両方で競争力のあるパフォーマンスを示し、生成のための画像編集や理解のための視覚的なキャプションと質問の回答など、さまざまな下流タスクへの強い移転可能性を示しています。

要約(オリジナル)

We present UniFluid, a unified autoregressive framework for joint visual generation and understanding leveraging continuous visual tokens. Our unified autoregressive architecture processes multimodal image and text inputs, generating discrete tokens for text and continuous tokens for image. We find though there is an inherent trade-off between the image generation and understanding task, a carefully tuned training recipe enables them to improve each other. By selecting an appropriate loss balance weight, the unified model achieves results comparable to or exceeding those of single-task baselines on both tasks. Furthermore, we demonstrate that employing stronger pre-trained LLMs and random-order generation during training is important to achieve high-fidelity image generation within this unified framework. Built upon the Gemma model series, UniFluid exhibits competitive performance across both image generation and understanding, demonstrating strong transferability to various downstream tasks, including image editing for generation, as well as visual captioning and question answering for understanding.

arxiv情報

著者 Lijie Fan,Luming Tang,Siyang Qin,Tianhong Li,Xuan Yang,Siyuan Qiao,Andreas Steiner,Chen Sun,Yuanzhen Li,Tao Zhu,Michael Rubinstein,Michalis Raptis,Deqing Sun,Radu Soricut
発行日 2025-03-17 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Unified Autoregressive Visual Generation and Understanding with Continuous Tokens はコメントを受け付けていません

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

要約

線形の複雑さを伴うRNNモデルの進歩により、変圧器の二次複雑さの課題は克服される可能性があります。
特に、新興MAMBA-2は競争力のあるパフォーマンスを実証し、RNNモデルと変圧器の間のギャップを埋めています。
ただし、連続的な処理と消失の勾配により、RNNモデルは長距離依存関係をキャプチャするのに苦労し、コンテキストの理解を制限しています。
これにより、収束が遅くなり、リソースの需要が高く、下流の理解と複雑な推論タスクのパフォーマンスが低下します。
この作業では、トランスデコーダー層の一部をMAMBA-2層を備えた事前に訓練されたVLMに置き換えることにより、ハイブリッドモデルMATVLMを提示します。
注意とMAMBA-2の固有の関係を活用すると、MAMBA-2を初期化して、収束を加速するために対応する注意重みを初期化します。
その後、事前に訓練されたVLMを教師モデルとして使用して知識をMATVLMに転送し、収束速度とパフォーマンスをさらに向上させる単一段階の蒸留プロセスを採用します。
さらに、トレーニングフレームワーク内での蒸留損失の微分損失の影響を調査します。
複数のベンチマークでMATVLMを評価し、MAMBAベースのVLMと同等のパラメータースケールのモデルの両方を超えながら、教師モデルと既存のVLMに対する競争力のあるパフォーマンスを実証します。
驚くべきことに、MATVLMは、教師モデルよりも最大3.6倍の推論を達成し、GPUメモリ消費量を27.5%削減し、すべてパフォーマンスを損なうことなく。
コードとモデルはhttp://github.com/hustvl/matvlmでリリースされます。

要約(オリジナル)

With the advancement of RNN models with linear complexity, the quadratic complexity challenge of transformers has the potential to be overcome. Notably, the emerging Mamba-2 has demonstrated competitive performance, bridging the gap between RNN models and transformers. However, due to sequential processing and vanishing gradients, RNN models struggle to capture long-range dependencies, limiting contextual understanding. This results in slow convergence, high resource demands, and poor performance on downstream understanding and complex reasoning tasks. In this work, we present a hybrid model MaTVLM by substituting a portion of the transformer decoder layers in a pre-trained VLM with Mamba-2 layers. Leveraging the inherent relationship between attention and Mamba-2, we initialize Mamba-2 with corresponding attention weights to accelerate convergence. Subsequently, we employ a single-stage distillation process, using the pre-trained VLM as the teacher model to transfer knowledge to the MaTVLM, further enhancing convergence speed and performance. Furthermore, we investigate the impact of differential distillation loss within our training framework. We evaluate the MaTVLM on multiple benchmarks, demonstrating competitive performance against the teacher model and existing VLMs while surpassing both Mamba-based VLMs and models of comparable parameter scales. Remarkably, the MaTVLM achieves up to 3.6x faster inference than the teacher model while reducing GPU memory consumption by 27.5%, all without compromising performance. Code and models are released at http://github.com/hustvl/MaTVLM.

arxiv情報

著者 Yingyue Li,Bencheng Liao,Wenyu Liu,Xinggang Wang
発行日 2025-03-17 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling はコメントを受け付けていません

Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images

要約

ほとんどの画像ベースの3Dオブジェクトリクストラクターは、実際のシナリオで一般的に発生する閉塞を無視して、オブジェクトが完全に見えると想定しています。
この論文では、部分的な観測から3Dオブジェクトを再構築するように設計された条件付き3D生成モデルであるAmodal3Rを紹介します。
「Foundation」3D生成モデルから開始し、それを拡張して、閉塞されたオブジェクトからもっともらしい3Dジオメトリと外観を回復します。
マスク加重されたマルチヘッドの交差メカニズムを導入し、それに続いて、再構築プロセスを導くために閉塞前priorを明示的に活用する閉塞を意識した注意層を導入します。
合成データのみをトレーニングすることにより、Amodal3rは実際のシーンでオクルージョンが存在する場合でも、完全な3Dオブジェクトを回復することを学ぶことを実証します。
2Dアモーダル完了を個別に実行する既存の方法を大幅に上回り、それに続いて3D再構成を行い、それにより、閉塞性の3D再構成のための新しいベンチマークを確立します。

要約(オリジナル)

Most image-based 3D object reconstructors assume that objects are fully visible, ignoring occlusions that commonly occur in real-world scenarios. In this paper, we introduce Amodal3R, a conditional 3D generative model designed to reconstruct 3D objects from partial observations. We start from a ‘foundation’ 3D generative model and extend it to recover plausible 3D geometry and appearance from occluded objects. We introduce a mask-weighted multi-head cross-attention mechanism followed by an occlusion-aware attention layer that explicitly leverages occlusion priors to guide the reconstruction process. We demonstrate that, by training solely on synthetic data, Amodal3R learns to recover full 3D objects even in the presence of occlusions in real scenes. It substantially outperforms existing methods that independently perform 2D amodal completion followed by 3D reconstruction, thereby establishing a new benchmark for occlusion-aware 3D reconstruction.

arxiv情報

著者 Tianhao Wu,Chuanxia Zheng,Frank Guan,Andrea Vedaldi,Tat-Jen Cham
発行日 2025-03-17 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images はコメントを受け付けていません

Humanoid Policy ~ Human Policy

要約

さまざまなデータを使用したヒューマノイドロボットのトレーニング操作ポリシーは、タスクとプラットフォーム全体でその堅牢性と一般化を強化します。
ただし、ロボットデモンストレーションのみから学習することは労働集約的であり、拡張が困難な高価なテレ操作データ収集が必要です。
このペーパーでは、よりスケーラブルなデータソースであるエゴセントリックな人間のデモを調査して、ロボット学習のための交差層間トレーニングデータとして機能します。
データとモデリングの視点の両方から、ヒューマノイドとヒトの間の具体化のギャップを緩和します。
ヒューマノイド操作のデモと直接整合するエゴセントリックタスク指向のデータセット(PH2D)を収集します。
次に、人間のアクショントランス(HAT)と呼ばれる人間のヒューマノイド行動ポリシーを訓練します。
帽子の状態空間は、人間とヒューマノイドの両方のロボットの両方で統一されており、ロボットアクションに異なるリターゲットになる可能性があります。
小規模なロボットデータと共同訓練されたHat Hatは、ヒューマノイドロボットと人間を追加の監督なしで異なる実施形態として直接モデル化します。
人間のデータが、データ収集の効率が大幅に向上し、帽子の一般化と堅牢性の両方を改善することを示しています。
コードとデータ:https://human-as-robot.github.io/

要約(オリジナル)

Training manipulation policies for humanoid robots with diverse data enhances their robustness and generalization across tasks and platforms. However, learning solely from robot demonstrations is labor-intensive, requiring expensive tele-operated data collection which is difficult to scale. This paper investigates a more scalable data source, egocentric human demonstrations, to serve as cross-embodiment training data for robot learning. We mitigate the embodiment gap between humanoids and humans from both the data and modeling perspectives. We collect an egocentric task-oriented dataset (PH2D) that is directly aligned with humanoid manipulation demonstrations. We then train a human-humanoid behavior policy, which we term Human Action Transformer (HAT). The state-action space of HAT is unified for both humans and humanoid robots and can be differentiably retargeted to robot actions. Co-trained with smaller-scale robot data, HAT directly models humanoid robots and humans as different embodiments without additional supervision. We show that human data improves both generalization and robustness of HAT with significantly better data collection efficiency. Code and data: https://human-as-robot.github.io/

arxiv情報

著者 Ri-Zhao Qiu,Shiqi Yang,Xuxin Cheng,Chaitanya Chawla,Jialong Li,Tairan He,Ge Yan,Lars Paulsen,Ge Yang,Sha Yi,Guanya Shi,Xiaolong Wang
発行日 2025-03-17 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Humanoid Policy ~ Human Policy はコメントを受け付けていません

DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models

要約

ベースニュートレードオフ(BNT)問題は、クリップベースのプロンプトチューニングの最適化中に普遍的に存在し、ベース(ターゲット)クラスでの連続的な微調整は、新しい(目に見えない)クラスでの一般化能力の同時減少につながります。
既存のアプローチは、制約を追加してBNTのバランスをとるために、迅速な調整プロセスを調節しようとします。
ただし、同じターゲットプロンプトに課されるこれらの制約は、ベースと新規の最適化方向の間の相互排他性を完全に回避できません。
この課題の斬新なソリューションとして、プラグアンドプレイのデュアルプロンプトコラボレーション(DPC)フレームワークを提案します。これは、プロンプトレベルでベースと新しいタスクの最適化プロセスを切り離す最初のものです。
具体的には、バックボーンプロンプトに基づいて学習可能な並列プロンプトをクローン化し、可変重み付けとデッカのフレームワークを導入して、ベースまたは新しいタスクに固有のデュアルプロンプトの最適化方向を独立して制御し、一般化の競合を回避します。
一方、デュアルプロンプトを利用して、強化のためにベースクラスでより挑戦的な最適化タスクを構築するために、ダイナミックハードネガティブオプティマイザーを提案します。
解釈可能性のために、最適化プロセス中のプロンプトベクトルの特徴チャネル不変性を証明し、DPCの重み付け補正に対する理論的サポートを提供します。
複数のバックボーンでの広範な実験は、新しいクラスに一般化を維持しながら、DPCが基本クラスを超えて外部の知識を導入することなく、ベースパフォーマンスを大幅に改善できることを示しています。
コードはhttps://github.com/jreion/dpcで入手できます。

要約(オリジナル)

The Base-New Trade-off (BNT) problem universally exists during the optimization of CLIP-based prompt tuning, where continuous fine-tuning on base (target) classes leads to a simultaneous decrease of generalization ability on new (unseen) classes. Existing approaches attempt to regulate the prompt tuning process to balance BNT by appending constraints. However, imposed on the same target prompt, these constraints fail to fully avert the mutual exclusivity between the optimization directions for base and new. As a novel solution to this challenge, we propose the plug-and-play Dual-Prompt Collaboration (DPC) framework, the first that decoupling the optimization processes of base and new tasks at the prompt level. Specifically, we clone a learnable parallel prompt based on the backbone prompt, and introduce a variable Weighting-Decoupling framework to independently control the optimization directions of dual prompts specific to base or new tasks, thus avoiding the conflict in generalization. Meanwhile, we propose a Dynamic Hard Negative Optimizer, utilizing dual prompts to construct a more challenging optimization task on base classes for enhancement. For interpretability, we prove the feature channel invariance of the prompt vector during the optimization process, providing theoretical support for the Weighting-Decoupling of DPC. Extensive experiments on multiple backbones demonstrate that DPC can significantly improve base performance without introducing any external knowledge beyond the base classes, while maintaining generalization to new classes. Code is available at: https://github.com/JREion/DPC.

arxiv情報

著者 Haoyang Li,Liang Wang,Chao Wang,Jing Jiang,Yan Peng,Guodong Long
発行日 2025-03-17 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models はコメントを受け付けていません

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

要約

独自の時間的次元を備えたビデオは、回答が視覚的で解釈可能な証拠に直接リンクされている正確な根拠のある理解を要求します。
大規模な言語モデル内の推論能力の大きなブレークスルーにもかかわらず、マルチモーダルの推論 – 特にビデオの場合 – は未開拓のままです。
この作業では、一時的なビデオ理解のために設計された新しいビデオ言語エージェントであるVideomindを紹介します。
Videomindには、2つの重要なイノベーションが組み込まれています。(i)動画の時間的推論に不可欠な機能を特定し、さまざまな役割を調整するためのプランナー、時間的局在化のためのグラウンダー、時間的間隔の精度を評価する検証剤、および質問回答者の応答者を含む役割ベースのエージェントワークフローを開発します。
(ii)これらの多様な役割を効率的に統合するために、複数のモデルのオーバーヘッドを避けながら、軽量のロラアダプターを介してシームレスなロールスイッチングを可能にし、効率と柔軟性のバランスをとることを可能にします。
14のパブリックベンチマークでの広範な実験は、当社のエージェントが、根拠のあるビデオ質問に3つ、ビデオの時間的接地で6つ、5つの一般的なビデオ質問回答で5つを含む多様なビデオ理解タスクで最先端のパフォーマンスを達成し、進行するビデオエージェントと長型の時間的推論におけるその有効性を強調していることを示しています。

要約(オリジナル)

Videos, with their unique temporal dimension, demand precise grounded understanding, where answers are directly linked to visual, interpretable evidence. Despite significant breakthroughs in reasoning capabilities within Large Language Models, multi-modal reasoning – especially for videos – remains unexplored. In this work, we introduce VideoMind, a novel video-language agent designed for temporal-grounded video understanding. VideoMind incorporates two key innovations: (i) We identify essential capabilities for video temporal reasoning and develop a role-based agentic workflow, including a planner for coordinating different roles, a grounder for temporal localization, a verifier to assess temporal interval accuracy, and an answerer for question-answering. (ii) To efficiently integrate these diverse roles, we propose a novel Chain-of-LoRA strategy, enabling seamless role-switching via lightweight LoRA adaptors while avoiding the overhead of multiple models, thus balancing efficiency and flexibility. Extensive experiments on 14 public benchmarks demonstrate that our agent achieves state-of-the-art performance on diverse video understanding tasks, including 3 on grounded video question-answering, 6 on video temporal grounding, and 5 on general video question-answering, underscoring its effectiveness in advancing video agent and long-form temporal reasoning.

arxiv情報

著者 Ye Liu,Kevin Qinghong Lin,Chang Wen Chen,Mike Zheng Shou
発行日 2025-03-17 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning はコメントを受け付けていません