C2GM: Cascading Conditional Generation of Multi-scale Maps from Remote Sensing Images Constrained by Geographic Features

要約

マルチスケールマップは、測量と地図作成の結果の重要な表現であり、地理的サービスの基本的なコンポーネントとして機能します。
現在の画像生成ネットワークは、リモートセンシング画像からマップタイルをすばやく作成できます。
ただし、自然画像向けに設計された生成モデルは、多くの場合、テクスチャ機能に焦点を当てており、リモートセンシング機能のユニークな特性とタイルマップのスケール属性を無視します。
生成モデルのこの制限は、地理情報の正確な表現を損ない、タイルマップ生成の品質は依然として改善が必要です。
拡散モデルは、さまざまな画像生成タスクで顕著な成功を示しており、この課題に対処する可能性を強調しています。
このペーパーでは、条件付きガイド付き拡散とマルチスケールのカスケード生成を通じてマルチスケールタイルマップを生成するための新しいフレームワークであるC2GMを紹介します。
具体的には、リモートセンシング画像とカスケードリファレンスダブルブランチ入力からオブジェクトプリエを抽出する条件付き機能フュージョンエンコーダーを実装して、複雑な機能を正確に表現します。
低レベルの生成タイルは、高レベルのマップ生成の制約として機能し、視覚的連続性を高めます。
さらに、CLIPを使用してマップスケールモダリティ情報を組み込み、マップスケールとタイルマップの地図作成の一般化との関係をシミュレートします。
広範な実験的評価は、C2GMがすべてのメトリックで最先端(SOTA)パフォーマンスを一貫して達成し、緊急対応およびリモートマッピングアプリケーションのためのマルチスケールの大規模なマップの迅速かつ効果的な世代を促進することを示しています。

要約(オリジナル)

Multi-scale maps are essential representations of surveying and cartographic results, serving as fundamental components of geographic services. Current image generation networks can quickly produce map tiles from remote-sensing images. However, generative models designed for natural images often focus on texture features, neglecting the unique characteristics of remote-sensing features and the scale attributes of tile maps. This limitation in generative models impairs the accurate representation of geographic information, and the quality of tile map generation still needs improvement. Diffusion models have demonstrated remarkable success in various image generation tasks, highlighting their potential to address this challenge. This paper presents C2GM, a novel framework for generating multi-scale tile maps through conditional guided diffusion and multi-scale cascade generation. Specifically, we implement a conditional feature fusion encoder to extract object priors from remote sensing images and cascade reference double branch input, ensuring an accurate representation of complex features. Low-level generated tiles act as constraints for high-level map generation, enhancing visual continuity. Moreover, we incorporate map scale modality information using CLIP to simulate the relationship between map scale and cartographic generalization in tile maps. Extensive experimental evaluations demonstrate that C2GM consistently achieves the state-of-the-art (SOTA) performance on all metrics, facilitating the rapid and effective generation of multi-scale large-format maps for emergency response and remote mapping applications.

arxiv情報

著者 Chenxing Sun,Yongyang Xu,Xuwei Xu,Xixi Fan,Jing Bai,Xiechun Lu,Zhanlong Chen
発行日 2025-02-07 15:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | C2GM: Cascading Conditional Generation of Multi-scale Maps from Remote Sensing Images Constrained by Geographic Features はコメントを受け付けていません

HAC++: Towards 100X Compression of 3D Gaussian Splatting

要約

3Dガウススプラッティング(3DG)は、新しいビュー合成の有望なフレームワークとして浮上しており、高い忠実度を備えた急速なレンダリング速度を誇っています。
ただし、実質的なガウスとそれに関連する属性は、効果的な圧縮技術を必要とします。
それにもかかわらず、ガウスのポイントクラウド(または私たちの論文のアンカー)のまばらで組織化されていない性質は、圧縮の課題を提示します。
コンパクトなサイズを実現するために、組織化されていないアンカーと構造化されたハッシュグリッドとの関係を活用して、コンテキストモデリングに相互情報を利用するHAC ++を提案します。
さらに、HAC ++は、アンカー内のコンテキスト関係をキャプチャして、圧縮性能をさらに強化します。
エントロピーコーディングを容易にするために、ガウス分布を利用して、各量子化属性の確率を正確に推定します。ここでは、適応量子化モジュールが提案され、これらの属性の高精度量子化が改善された忠実度の回復を可能にします。
さらに、無効なガウスとアンカーを排除するための適応マスキング戦略を組み込みます。
全体として、HAC ++は、すべてのデータセットで平均した場合、バニラ3DGと比較して100倍以上の顕著なサイズの縮小を達成し、同時に忠実度を向上させます。
また、足場GSと比較して20倍以上のサイズの削減を実現します。
私たちのコードは、https://github.com/yihangchen-ee/hac-plusで入手できます。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has emerged as a promising framework for novel view synthesis, boasting rapid rendering speed with high fidelity. However, the substantial Gaussians and their associated attributes necessitate effective compression techniques. Nevertheless, the sparse and unorganized nature of the point cloud of Gaussians (or anchors in our paper) presents challenges for compression. To achieve a compact size, we propose HAC++, which leverages the relationships between unorganized anchors and a structured hash grid, utilizing their mutual information for context modeling. Additionally, HAC++ captures intra-anchor contextual relationships to further enhance compression performance. To facilitate entropy coding, we utilize Gaussian distributions to precisely estimate the probability of each quantized attribute, where an adaptive quantization module is proposed to enable high-precision quantization of these attributes for improved fidelity restoration. Moreover, we incorporate an adaptive masking strategy to eliminate invalid Gaussians and anchors. Overall, HAC++ achieves a remarkable size reduction of over 100X compared to vanilla 3DGS when averaged on all datasets, while simultaneously improving fidelity. It also delivers more than 20X size reduction compared to Scaffold-GS. Our code is available at https://github.com/YihangChen-ee/HAC-plus.

arxiv情報

著者 Yihang Chen,Qianyi Wu,Weiyao Lin,Mehrtash Harandi,Jianfei Cai
発行日 2025-02-07 15:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HAC++: Towards 100X Compression of 3D Gaussian Splatting はコメントを受け付けていません

Trust-Aware Diversion for Data-Effective Distillation

要約

データセット蒸留は、大きなデータセットを圧縮して、重要な情報を保持する小さな合成サブセットに圧縮します。
既存の方法では、すべてのサンプルが完全にラベル付けされていると仮定し、誤ったラベルが遍在する現実世界のアプリケーションを制限します。
これらの誤解されたサンプルは、データセットに信頼できない情報を導入し、データセットの蒸留におけるモデルの最適化を誤解させます。
この問題に取り組むために、私たちは信頼を認識している転用(TAD)データセット蒸留方法を提案します。
提案されたTADは、データ効果の高い蒸留のための反復的なデュアルループ最適化フレームワークを導入します。
具体的には、外側のループはデータを信頼できる信頼できない空間に分割し、蒸留プロセスへの信頼を保証するために、信頼できるサンプルへの蒸留をリダイレクトします。
このステップにより、データセットの蒸留に対する誤ったラベルサンプルの影響が最小限に抑えられます。
内側のループは、信頼されていないサンプルを再調整することにより、蒸留目標を最大化し、蒸留のためにそれらを貴重なサンプルに変換します。
このデュアルループは、互いを繰り返し洗練し、補償し、信頼できるスペースを徐々に拡大し、信頼されていないスペースを縮小します。
実験は、3つの広く使用されているベンチマーク(CIFAR10、CIFAR100、および小さなイメージネット)の既存のデータセット蒸留方法のパフォーマンスを3つの挑戦的な誤ったライベル設定(対称、非対称、および実世界)で既存のデータセット蒸留方法のパフォーマンスを大幅に改善できることを示しています。

要約(オリジナル)

Dataset distillation compresses a large dataset into a small synthetic subset that retains essential information. Existing methods assume that all samples are perfectly labeled, limiting their real-world applications where incorrect labels are ubiquitous. These mislabeled samples introduce untrustworthy information into the dataset, which misleads model optimization in dataset distillation. To tackle this issue, we propose a Trust-Aware Diversion (TAD) dataset distillation method. Our proposed TAD introduces an iterative dual-loop optimization framework for data-effective distillation. Specifically, the outer loop divides data into trusted and untrusted spaces, redirecting distillation toward trusted samples to guarantee trust in the distillation process. This step minimizes the impact of mislabeled samples on dataset distillation. The inner loop maximizes the distillation objective by recalibrating untrusted samples, thus transforming them into valuable ones for distillation. This dual-loop iteratively refines and compensates for each other, gradually expanding the trusted space and shrinking the untrusted space. Experiments demonstrate that our method can significantly improve the performance of existing dataset distillation methods on three widely used benchmarks (CIFAR10, CIFAR100, and Tiny ImageNet) in three challenging mislabeled settings (symmetric, asymmetric, and real-world).

arxiv情報

著者 Zhuojie Wu,Yanbin Liu,Xin Shen,Xiaofeng Cao,Xin Yu
発行日 2025-02-07 15:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Trust-Aware Diversion for Data-Effective Distillation はコメントを受け付けていません

IDPro: Flexible Interactive Video Object Segmentation by ID-queried Concurrent Propagation

要約

インタラクティブなビデオオブジェクトセグメンテーション(IVOS)は、リアルタイムのヒューマンコンピューターの相互作用を必要とする挑戦的なタスクです。
ユーザーエクスペリエンスを改善するには、ユーザーの入力習慣、セグメンテーション品質、実行時間、メモリの消費を考慮することが重要です。
具体的には、これらのメソッドは、ユーザーが1つのフレームと対話できるため、ユーザーの意図の表現を制限することを可能にします。これらの制限を克服し、人々の使用習慣に合わせて、複数のフレームを同時に受け入れ、相乗的相互作用を調査できるフレームワークを提案します。
フレームを越えて(SIAF)。
具体的には、ユーザーが複数のフレームでさまざまなオブジェクトを自由に注釈できるようにするために、途中のフレームインタラクションモジュールを設計しました。
AFIモジュールは、複数のインタラクティブフレーム間でScribble情報を移行し、マルチフレームマスクを生成します。
さらに、ID Queriedメカニズムを使用して、バッチで複数のオブジェクトを処理します。
さらに、より効率的な伝播と軽量モデルのために、重要な相互作用情報を蓄積するラウンドメモリを使用する以前のマルチラウンド融合モジュールを置き換えるために、切り捨てられた再浸透戦略を設計します。
Swinb-Siafは、Davis 2017で新しい最先端のパフォーマンスを達成しています(89.6%、J&F@60)。
さらに、当社のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合他社よりも3つ以上高速です。

要約(オリジナル)

Interactive Video Object Segmentation (iVOS) is a challenging task that requires real-time human-computer interaction. To improve the user experience, it is important to consider the user’s input habits, segmentation quality, running time and memory consumption.However, existing methods compromise user experience with single input mode and slow running speed. Specifically, these methods only allow the user to interact with one single frame, which limits the expression of the user’s intent.To overcome these limitations and better align with people’s usage habits, we propose a framework that can accept multiple frames simultaneously and explore synergistic interaction across frames (SIAF). Concretely, we designed the Across-Frame Interaction Module that enables users to annotate different objects freely on multiple frames. The AFI module will migrate scribble information among multiple interactive frames and generate multi-frame masks. Additionally, we employ the id-queried mechanism to process multiple objects in batches. Furthermore, for a more efficient propagation and lightweight model, we design a truncated re-propagation strategy to replace the previous multi-round fusion module, which employs an across-round memory that stores important interaction information. Our SwinB-SIAF achieves new state-of-the-art performance on DAVIS 2017 (89.6%, J&F@60). Moreover, our R50-SIAF is more than 3 faster than the state-of-the-art competitor under challenging multi-object scenarios.

arxiv情報

著者 Kexin Li,Tao Jiang,Zongxin Yang,Yi Yang,Yueting Zhuang,Jun Xiao
発行日 2025-02-07 15:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IDPro: Flexible Interactive Video Object Segmentation by ID-queried Concurrent Propagation はコメントを受け付けていません

MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data

要約

脳のデコードは、脳の知覚メカニズムを理解するために重要なfMRIシグナルから人間の被験者の視覚的認識を再構築することを目的としています。
既存の方法は、実質的な脳の変動性のために単一被験者のパラダイムに限定されており、個人の一般化が弱くなり、fMRIデータの入手可能性が限られていることで悪化する高いトレーニングコストが発生します。
これらの課題に対処するために、限られたfMRIデータからの被験者間脳のデコードのための明示的な機能的アライメントフレームワークであるMindAlignerを提案します。
提案されたマインドアライナーは、いくつかのメリットを享受しています。
まず、既知の被験者の1つに任意の新しい被験者の脳シグナルを投影する脳移動マトリックス(BTM)を学び、事前に訓練されたデコードモデルのシームレスな使用を可能にします。
第二に、信頼性の高いBTM学習を促進するために、脳機能アライメントモジュールが提案され、多レベルの脳アライメント損失を伴う異なる視覚刺激の下でソフトクロス被験者の脳アライメントを実行し、高い解釈性との微細に密集した機能的対応を明らかにします。
実験は、マインドアリグナーが、データ制限条件下での視覚デコードの既存の方法よりも優れているだけでなく、クロス被験者の機能分析における貴重な神経科学の洞察を提供することを示しています。
コードは公開されます。

要約(オリジナル)

Brain decoding aims to reconstruct visual perception of human subject from fMRI signals, which is crucial for understanding brain’s perception mechanisms. Existing methods are confined to the single-subject paradigm due to substantial brain variability, which leads to weak generalization across individuals and incurs high training costs, exacerbated by limited availability of fMRI data. To address these challenges, we propose MindAligner, an explicit functional alignment framework for cross-subject brain decoding from limited fMRI data. The proposed MindAligner enjoys several merits. First, we learn a Brain Transfer Matrix (BTM) that projects the brain signals of an arbitrary new subject to one of the known subjects, enabling seamless use of pre-trained decoding models. Second, to facilitate reliable BTM learning, a Brain Functional Alignment module is proposed to perform soft cross-subject brain alignment under different visual stimuli with a multi-level brain alignment loss, uncovering fine-grained functional correspondences with high interpretability. Experiments indicate that MindAligner not only outperforms existing methods in visual decoding under data-limited conditions, but also provides valuable neuroscience insights in cross-subject functional analysis. The code will be made publicly available.

arxiv情報

著者 Yuqin Dai,Zhouheng Yao,Chunfeng Song,Qihao Zheng,Weijian Mai,Kunyu Peng,Shuai Lu,Wanli Ouyang,Jian Yang,Jiamin Wu
発行日 2025-02-07 16:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data はコメントを受け付けていません

FlightForge: Advancing UAV Research with Procedural Generation of High-Fidelity Simulation and Integrated Autonomy

要約

ロボットシミュレーターは、特に非白黒の航空機(UAV)の領域で、自律システムの開発とテストに重要な役割を果たします。
ただし、既存のシミュレーターは、多くの場合、高レベルの自律性を欠いており、未知の環境での自律ナビゲーションなどの複雑なタスクへの即時の適用性を妨げています。
この制限は、現実的な物理学、フォトリアリックなレンダリング、多様なセンサーのモダリティを単一のシミュレーション環境に統合するという課題に由来しています。
同時に、既存のフォトリアリスティックなUAVシミュレーターは、環境サイズが限られている主に手作りの環境を使用しており、長距離ミッションのテストを防ぎます。
これにより、既存のシミュレーターの使用は、制御や衝突回避などの低レベルのタスクのみに制限されます。
この目的のために、新しいFlightforge UAVオープンソースシミュレーターを提案します。
FlightForgeは、高度なレンダリング機能、多様な制御モダリティ、そして何よりも、環境の手続き上の生成を提供します。
さらに、シミュレーターは、散らかった未知の環境で長距離飛行が可能な完全に自律的なUAVシステムと既に統合されています。
重要な革新は、新しい手続き環境生成と、シミュレーション環境への高レベルの自律性のシームレスな統合にあります。
実験結果は、既存のシミュレーターと比較して優れたセンサーレンダリング機能と、ほぼ無限環境での自律ナビゲーションの能力を示しています。

要約(オリジナル)

Robotic simulators play a crucial role in the development and testing of autonomous systems, particularly in the realm of Uncrewed Aerial Vehicles (UAV). However, existing simulators often lack high-level autonomy, hindering their immediate applicability to complex tasks such as autonomous navigation in unknown environments. This limitation stems from the challenge of integrating realistic physics, photorealistic rendering, and diverse sensor modalities into a single simulation environment. At the same time, the existing photorealistic UAV simulators use mostly hand-crafted environments with limited environment sizes, which prevents the testing of long-range missions. This restricts the usage of existing simulators to only low-level tasks such as control and collision avoidance. To this end, we propose the novel FlightForge UAV open-source simulator. FlightForge offers advanced rendering capabilities, diverse control modalities, and, foremost, procedural generation of environments. Moreover, the simulator is already integrated with a fully autonomous UAV system capable of long-range flights in cluttered unknown environments. The key innovation lies in novel procedural environment generation and seamless integration of high-level autonomy into the simulation environment. Experimental results demonstrate superior sensor rendering capability compared to existing simulators, and also the ability of autonomous navigation in almost infinite environments.

arxiv情報

著者 David Čapek,Jan Hrnčíř,Tomáš Báča,Jakub Jirkal,Vojtěch Vonásek,Robert Pěnička,Martin Saska
発行日 2025-02-07 16:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FlightForge: Advancing UAV Research with Procedural Generation of High-Fidelity Simulation and Integrated Autonomy はコメントを受け付けていません

GaussRender: Learning 3D Occupancy with Gaussian Rendering

要約

運転シーンの3Dジオメトリとセマンティクスを理解することは、安全な自動運転車の開発に不可欠です。
3D占有モデルは通常、標準的な損失を伴うボクセルベースの監督を使用して訓練されていますが(例:クロスエントロピー、ロヴァス、サイコロ)、これらのアプローチはボクセルの予測を独立して扱い、空間的関係を無視します。
この論文では、ボクセルベースの監督を強化するプラグアンドプレイ3Dから2Dの再注入損失であるGaussRenderを提案します。
私たちの方法は、3Dボクセル表現を任意の2D視点に投影し、ガウスのスプラットをレバレッジして、ボクセルの効率的で微分可能なレンダリングプロキシとして、予測された要素全体に空間依存関係を導入します。
このアプローチは、セマンティックおよび幾何学的な一貫性を改善し、閉塞をより効率的に処理し、アーキテクチャの変更を必要としません。
複数のベンチマークでの広範な実験(Courvledocc-Nuscenes、Occ3D-Nuscenes、SSCBench-Kitti360)は、さまざまな3D占有モデル(TPVFormer、Surversocc、Symphonies)にわたって一貫したパフォーマンスの向上を示し、フレームワークの堅牢性と汎用性を強調しています。
このコードは、https://github.com/valeoai/gaussrenderで入手できます。

要約(オリジナル)

Understanding the 3D geometry and semantics of driving scenes is critical for developing of safe autonomous vehicles. While 3D occupancy models are typically trained using voxel-based supervision with standard losses (e.g., cross-entropy, Lovasz, dice), these approaches treat voxel predictions independently, neglecting their spatial relationships. In this paper, we propose GaussRender, a plug-and-play 3D-to-2D reprojection loss that enhances voxel-based supervision. Our method projects 3D voxel representations into arbitrary 2D perspectives and leverages Gaussian splatting as an efficient, differentiable rendering proxy of voxels, introducing spatial dependencies across projected elements. This approach improves semantic and geometric consistency, handles occlusions more efficiently, and requires no architectural modifications. Extensive experiments on multiple benchmarks (SurroundOcc-nuScenes, Occ3D-nuScenes, SSCBench-KITTI360) demonstrate consistent performance gains across various 3D occupancy models (TPVFormer, SurroundOcc, Symphonies), highlighting the robustness and versatility of our framework. The code is available at https://github.com/valeoai/GaussRender.

arxiv情報

著者 Loick Chambon,Eloi Zablocki,Alexandre Boulch,Mickael Chen,Matthieu Cord
発行日 2025-02-07 16:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GaussRender: Learning 3D Occupancy with Gaussian Rendering はコメントを受け付けていません

Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting

要約

3Dシーンの編集における最近の進歩は、生成モデルの急速な発展によって推進されています。
既存の方法は通常、生成モデルを利用して、3Dガウススプラッティング(3DG)などの3D表現でテキスト誘導編集を実行します。
ただし、これらの方法は多くの場合、テクスチャの変更に限定され、キャラクターの頭を編集して向きを変えるなど、幾何学的な変更に対処するときに失敗します。
さらに、そのような方法には、編集の程度を正確に説明するために言語が苦労しているため、結果の編集の空間的位置に対する正確な制御がありません。
これらの制限を克服するために、3Dガウススプラッティングのための効果的な3Dドラッグベースの編集方法であるDYGを導入します。
ユーザーは、3Dマスクの入力とコントロールポイントのペアを介して、目的の編集領域と目的のドラッグ方向を便利に指定できるため、編集の範囲を正確に制御できます。
DYGは、暗黙のトリプレーン表現の強度を統合して、編集結果の幾何学的足場を確立し、目的の編集領域での3DGのスパースによって引き起こされる次の編集結果を効果的に克服します。
さらに、提案されたドラッグSDS損失関数を介して、ドラッグベースの潜在拡散モデルをメソッドに組み込み、柔軟な、マルチビューの一貫性、細粒の編集を可能にします。
広範な実験は、DYGが制御ポイントプロンプトによって誘導された効果的な抗力ベースの編集を実施し、質的および定量的に編集効果と品質の観点から他のベースラインを上回っていることを示しています。
https://quyans.github.io/drag-your-gaussianのプロジェクトページをご覧ください。

要約(オリジナル)

Recent advancements in 3D scene editing have been propelled by the rapid development of generative models. Existing methods typically utilize generative models to perform text-guided editing on 3D representations, such as 3D Gaussian Splatting (3DGS). However, these methods are often limited to texture modifications and fail when addressing geometric changes, such as editing a character’s head to turn around. Moreover, such methods lack accurate control over the spatial position of editing results, as language struggles to precisely describe the extent of edits. To overcome these limitations, we introduce DYG, an effective 3D drag-based editing method for 3D Gaussian Splatting. It enables users to conveniently specify the desired editing region and the desired dragging direction through the input of 3D masks and pairs of control points, thereby enabling precise control over the extent of editing. DYG integrates the strengths of the implicit triplane representation to establish the geometric scaffold of the editing results, effectively overcoming suboptimal editing outcomes caused by the sparsity of 3DGS in the desired editing regions. Additionally, we incorporate a drag-based Latent Diffusion Model into our method through the proposed Drag-SDS loss function, enabling flexible, multi-view consistent, and fine-grained editing. Extensive experiments demonstrate that DYG conducts effective drag-based editing guided by control point prompts, surpassing other baselines in terms of editing effect and quality, both qualitatively and quantitatively. Visit our project page at https://quyans.github.io/Drag-Your-Gaussian.

arxiv情報

著者 Yansong Qu,Dian Chen,Xinyang Li,Xiaofan Li,Shengchuan Zhang,Liujuan Cao,Rongrong Ji
発行日 2025-02-07 16:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting はコメントを受け付けていません

Kronecker Mask and Interpretive Prompts are Language-Action Video Learners

要約

対照的な言語イメージの事前削除(CLIP)には、画像ベースのビジョン学習が大幅に進歩しています。
その後、プレストピックが発生します。クリップをビデオドメインに効果的に適応させるにはどうすればよいですか?
最近の研究では、アクション認識のためにクリップのテキストまたは視覚的ブランチのいずれかを調整することに焦点を当てています。
ただし、両方のブランチの適応が非常に重要であると主張しています。
この論文では、\ textbf {claver}:a \ textbf {c} ontrastive \ textbf {l} anguage- \ textbf {a} ction \ textbfを提案します。
静的視覚オブジェクトとコンクリート名詞のアライメントから、動的アクション動作と抽象動詞のアライメントまで。
具体的には、時間モデリングのために新しいKroneckerマスクの注意を紹介します。
私たちのテーラードクロネッカーマスクは3つの利点を提供します1)各トークンの時間的受容フィールドを拡張します。
モデル。
テキストブランチに関しては、大規模な言語モデルを活用して、多様な文レベルで意味的に豊富なアクションプロンプトを生成し、モデルの焦点を動詞理解にシフトします。
さまざまなベンチマークや学習シナリオでの広範な実験は、アプローチの優位性と一般性を示しています。
コードはまもなく利用可能になります。

要約(オリジナル)

Contrastive language-image pretraining (CLIP) has significantly advanced image-based vision learning. A pressing topic subsequently arises: how can we effectively adapt CLIP to the video domain? Recent studies have focused on adjusting either the textual or visual branch of CLIP for action recognition. However, we argue that adaptations of both branches are crucial. In this paper, we propose \textbf{CLAVER}: a \textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er}, designed to shift CLIP’s focus from the alignment of static visual objects and concrete nouns to the alignment of dynamic action behaviors and abstract verbs. Specifically, we introduce a novel Kronecker mask attention for temporal modeling. Our tailored Kronecker mask offers three benefits 1) it expands the temporal receptive field for each token, 2) it serves as an effective spatiotemporal heterogeneity inductive bias, mitigating the issue of spatiotemporal homogenization, and 3) it can be seamlessly plugged into transformer-based models. Regarding the textual branch, we leverage large language models to generate diverse, sentence-level and semantically rich interpretive prompts of actions, which shift the model’s focus towards the verb comprehension. Extensive experiments on various benchmarks and learning scenarios demonstrate the superiority and generality of our approach. The code will be available soon.

arxiv情報

著者 Jingyi Yang,Zitong Yu,Xiuming Ni,Jia He,Hui Li
発行日 2025-02-07 16:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Kronecker Mask and Interpretive Prompts are Language-Action Video Learners はコメントを受け付けていません

SACNet: A Spatially Adaptive Convolution Network for 2D Multi-organ Medical Segmentation

要約

医療画像分析におけるマルチオルガンセグメンテーションは、診断と治療計画に不可欠です。
ただし、さまざまなターゲットカテゴリのばらつきや複雑な背景からの干渉など、多くの要因がタスクを複雑にしています。
この論文では、変形可能な畳み込みv3(DCNV3)とマルチオブジェクトセグメンテーションの知識を利用して、特徴抽出、モデルアーキテクチャ、および損失制約の3つの側面で空間的に適応的な畳み込みネットワーク(SACNET)を最適化し、同時に異なるものの認識を高めます。
セグメンテーションターゲット。
まず、DCNV3と変圧器に似た一連のカスタマイズされたブロックレベルおよびアーキテクチャレベルのデザインを組み合わせた適応受容フィールドモジュール(ARFM)を提案します。
このモジュールは、さまざまなターゲットに従って受容フィールドを適応的に調整することにより、異なる臓器のユニークな機能をキャプチャできます。
第二に、ARFMをビルディングブロックとして利用して、SACNETのエンコーダーデコーダーを構築し、エンコーダーとデコーダーの間で部分的にパラメーターを共有し、ネットワークをより深くするのではなく広くします。
この設計は、共有された軽量デコーダーと、よりパラメーター効率の高い効果的なフレームワークを実現します。
最後に、セグメンテーションの簡単で​​複雑なクラスのバランスを改善するために、T-VMFダイスの損失とクロスエントロピー損失に基づいて、新しい連続性動的調整損失関数を提案します。
ACDCおよびSynapseの3Dスライスデータセットでの実験は、SACNETがいくつかの既存の方法と比較してマルチオルガンセグメンテーションタスクで優れたセグメンテーションパフォーマンスを提供することを示しています。

要約(オリジナル)

Multi-organ segmentation in medical image analysis is crucial for diagnosis and treatment planning. However, many factors complicate the task, including variability in different target categories and interference from complex backgrounds. In this paper, we utilize the knowledge of Deformable Convolution V3 (DCNv3) and multi-object segmentation to optimize our Spatially Adaptive Convolution Network (SACNet) in three aspects: feature extraction, model architecture, and loss constraint, simultaneously enhancing the perception of different segmentation targets. Firstly, we propose the Adaptive Receptive Field Module (ARFM), which combines DCNv3 with a series of customized block-level and architecture-level designs similar to transformers. This module can capture the unique features of different organs by adaptively adjusting the receptive field according to various targets. Secondly, we utilize ARFM as building blocks to construct the encoder-decoder of SACNet and partially share parameters between the encoder and decoder, making the network wider rather than deeper. This design achieves a shared lightweight decoder and a more parameter-efficient and effective framework. Lastly, we propose a novel continuity dynamic adjustment loss function, based on t-vMF dice loss and cross-entropy loss, to better balance easy and complex classes in segmentation. Experiments on 3D slice datasets from ACDC and Synapse demonstrate that SACNet delivers superior segmentation performance in multi-organ segmentation tasks compared to several existing methods.

arxiv情報

著者 Lin Zhang,Wenbo Gao,Jie Yi,Yunyun Yang
発行日 2025-02-07 16:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SACNet: A Spatially Adaptive Convolution Network for 2D Multi-organ Medical Segmentation はコメントを受け付けていません