FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception

要約

オーバーラップオブジェクトの知覚は、ランダムに重複する前景帯の特徴を切り離すことを目的としており、前景の特徴を抽出しながら前景機能を抽出し、セキュリティスクリーニングや医療補助診断などのフィールドに有意な応用値を保持します。
オブジェクトの知覚の重複の課題に取り組むためのいくつかの研究努力にもかかわらず、ほとんどのソリューションは空間ドメインに限定されます。
周波数ドメイン分析を通じて、重複する現象による輪郭とテクスチャの分解は、大きさスペクトルに直感的に反映されることがわかります。
この観察に基づいて、一般的な周波数最適化防止防止フレームワーク(フォーム)を提案して、モデルがより多くのテクスチャと輪郭情報を抽出するのを支援し、それによってオブジェクトを重複させるオブジェクト知覚の能力を高めます。
具体的には、周波数空間変圧器ブロック(FSTB)を設計します。これにより、周波数ドメインと空間ドメインの両方から機能を同時に抽出できるため、ネットワークが前景からより多くのテクスチャ機能をキャプチャできます。
さらに、トレーニングフェーズ中に特別に設計された一貫した損失を使用して、個別に構築されたベースブランチおよび腐敗分岐の隣接する機能を整列させる階層脱腐敗(HDC)メカニズムを導入します。
このメカニズムは、FSTBの無関係な背景特徴に対する反応を抑制し、それにより前景の輪郭の知覚を改善します。
提案されたフォームの有効性と一般化を検証するために広範な実験を実施します。これにより、4つのデータセットで最先端のモデルの精度がさらに向上します。
論文が受け入れられると、コードはオープンソースになります。

要約(オリジナル)

Overlapping object perception aims to decouple the randomly overlapping foreground-background features, extracting foreground features while suppressing background features, which holds significant application value in fields such as security screening and medical auxiliary diagnosis. Despite some research efforts to tackle the challenge of overlapping object perception, most solutions are confined to the spatial domain. Through frequency domain analysis, we observe that the degradation of contours and textures due to the overlapping phenomenon can be intuitively reflected in the magnitude spectrum. Based on this observation, we propose a general Frequency-Optimized Anti-Overlapping Framework (FOAM) to assist the model in extracting more texture and contour information, thereby enhancing the ability for anti-overlapping object perception. Specifically, we design the Frequency Spatial Transformer Block (FSTB), which can simultaneously extract features from both the frequency and spatial domains, helping the network capture more texture features from the foreground. In addition, we introduce the Hierarchical De-Corrupting (HDC) mechanism, which aligns adjacent features in the separately constructed base branch and corruption branch using a specially designed consistent loss during the training phase. This mechanism suppresses the response to irrelevant background features of FSTBs, thereby improving the perception of foreground contour. We conduct extensive experiments to validate the effectiveness and generalization of the proposed FOAM, which further improves the accuracy of state-of-the-art models on four datasets, specifically for the three overlapping object perception tasks: Prohibited Item Detection, Prohibited Item Segmentation, and Pneumonia Detection. The code will be open source once the paper is accepted.

arxiv情報

著者 Mingyuan Li,Tong Jia,Han Gu,Hui Lu,Hao Wang,Bowen Ma,Shuyang Lin,Shiyi Guo,Shizhuo Deng,Dongyue Chen
発行日 2025-06-16 13:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception はコメントを受け付けていません

Stimulus Motion Perception Studies Imply Specific Neural Computations in Human Visual Stabilization

要約

固定中であっても、人間の目は常に低振幅の動きであり、最大100Hzのランダムな方向に小さな角度でジッタリングします。
この動きは、網膜上の画像のすべての特徴を絶えず多くのコーンを通過しますが、世界で安定したオブジェクトは安定していると認識されており、世界で動いているオブジェクトは動いていると認識されています。
数十年にわたって行われた一連の実験により、視覚安定化の精神物理学は、たとえば、カメラ画像の安定化の仕組みや、進化的な観点から最も単純な解決策と想定されるものから想定されるよりも微妙であることが明らかになりました。
実験によって明らかにされた精神物理学は、観察された安定化挙動をもたらす網膜信号の特定の操作セットを強く意味します。
プレゼンテーションは2つのレベルです。
1つ目は、実験的に観察された行動の原因となる可能性が非常に高いメカニズムの作用の機能的な説明です。
2番目は、機能的動作を実装する可能性のある回路レベルのニューラル要素のより投機的な提案です。

要約(オリジナル)

Even during fixation the human eye is constantly in low amplitude motion, jittering over small angles in random directions at up to 100Hz. This motion results in all features of the image on the retina constantly traversing a number of cones, yet objects which are stable in the world are perceived to be stable, and any object which is moving in the world is perceived to be moving. A series of experiments carried out over a dozen years revealed the psychophysics of visual stabilization to be more nuanced than might be assumed, say, from the mechanics of stabilization of camera images, or what might be assumed to be the simplest solution from an evolutionary perspective. The psychophysics revealed by the experiments strongly implies a specific set of operations on retinal signals resulting in the observed stabilization behavior. The presentation is in two levels. First is a functional description of the action of the mechanism that is very likely responsible for the experimentally observed behavior. Second is a more speculative proposal of circuit-level neural elements that might implement the functional behavior.

arxiv情報

著者 David W Arathorn,Josephine C. D’Angelo,Austin Roorda
発行日 2025-06-16 14:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC | Stimulus Motion Perception Studies Imply Specific Neural Computations in Human Visual Stabilization はコメントを受け付けていません

Multiview Geometric Regularization of Gaussian Splatting for Accurate Radiance Fields

要約

2Dガウスのスプラッティングやガウスの不透明度フィールドなどの最近の方法は、優れたレンダリング品質を保持しながら、3Dガウスのスプラッティングの幾何学的な不正確さに対処することを目指しています。
ただし、これらのアプローチは、特にポイントごとの外観モデリングとシングルビューの最適化制約のために、特に視点で大きな色の変動を持つシーンでスムーズで信頼できるジオメトリを再構築するのに苦労しています。
このホワイトペーパーでは、マルチビューステレオ(MVS)深度、RGB、および通常の制約をガウスのスプラットの初期化と最適化に統合する効果的なマルチビュー幾何学的正規化戦略を提案します。
私たちの重要な洞察は、MVS由来の深さポイントとガウスのスプラッティングが最適化された位置との補完的な関係です。MVSは、ローカルパッチベースのマッチングとエピポーラの制約を通じて高い色変動の領域でのジオメトリを堅牢に推定しますが、ガウスのスプラットは、より信頼性が高く、より軽度の深さの推定値を提供します。
この洞察を活用するために、MVS深度情報をガウスのスプラッティング最適化に効果的に統合して、不確実性の推定で深さベースのマルチビューの中央値の相対深さ損失を導入します。
また、ガウスが準最適な位置に陥るのを避けるために、MVS誘導ガウスのスプラットの初期化を提案します。
広範な実験では、私たちのアプローチがこれらの強度を正常に組み合わせて、幾何学的精度と多様な屋内および屋外のシーン全体で品質を向上させることを検証します。

要約(オリジナル)

Recent methods, such as 2D Gaussian Splatting and Gaussian Opacity Fields, have aimed to address the geometric inaccuracies of 3D Gaussian Splatting while retaining its superior rendering quality. However, these approaches still struggle to reconstruct smooth and reliable geometry, particularly in scenes with significant color variation across viewpoints, due to their per-point appearance modeling and single-view optimization constraints. In this paper, we propose an effective multiview geometric regularization strategy that integrates multiview stereo (MVS) depth, RGB, and normal constraints into Gaussian Splatting initialization and optimization. Our key insight is the complementary relationship between MVS-derived depth points and Gaussian Splatting-optimized positions: MVS robustly estimates geometry in regions of high color variation through local patch-based matching and epipolar constraints, whereas Gaussian Splatting provides more reliable and less noisy depth estimates near object boundaries and regions with lower color variation. To leverage this insight, we introduce a median depth-based multiview relative depth loss with uncertainty estimation, effectively integrating MVS depth information into Gaussian Splatting optimization. We also propose an MVS-guided Gaussian Splatting initialization to avoid Gaussians falling into suboptimal positions. Extensive experiments validate that our approach successfully combines these strengths, enhancing both geometric accuracy and rendering quality across diverse indoor and outdoor scenes.

arxiv情報

著者 Jungeon Kim,Geonsoo Park,Seungyong Lee
発行日 2025-06-16 14:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multiview Geometric Regularization of Gaussian Splatting for Accurate Radiance Fields はコメントを受け付けていません

A Semantically-Aware Relevance Measure for Content-Based Medical Image Retrieval Evaluation

要約

コンテンツベースの画像検索(CBIR)のパフォーマンス評価は、特に医療ドメインで今日では重要ではあるが未解決の問題のままです。
この問題を解決するために、文献ではさまざまな評価指標が議論されています。
既存のメトリックのほとんど(例:精度、リコール)は、グラウンドトゥルースとしてマニュアルラベルを必要とする分類タスクから採用されています。
ただし、そのようなラベルは多くの場合、高価であり、特定のテーマドメインでは利用できません。
さらに、医療画像は通常、(放射線学的)症例報告に関連付けられているか、文献図に記述的なキャプションが注釈されています。そのようなテキストには、CBIRの評価に役立つ情報が含まれています。テキストに隠された医療概念はCBIR評価の目的の基礎として役立つと主張しています。
ただし、これらの作品は、これらの医療概念を独立した孤立したラベルと見なすことがよくありますが、実際にはさまざまな概念間の微妙な関係は無視されています。
この作業では、知識グラフの使用を導入して、さまざまな医療概念間の距離を測定し、CBIRの評価のための新しい関連性尺度を提案します。

要約(オリジナル)

Performance evaluation for Content-Based Image Retrieval (CBIR) remains a crucial but unsolved problem today especially in the medical domain. Various evaluation metrics have been discussed in the literature to solve this problem. Most of the existing metrics (e.g., precision, recall) are adapted from classification tasks which require manual labels as ground truth. However, such labels are often expensive and unavailable in specific thematic domains. Furthermore, medical images are usually associated with (radiological) case reports or annotated with descriptive captions in literature figures, such text contains information that can help to assess CBIR.Several researchers have argued that the medical concepts hidden in the text can serve as the basis for CBIR evaluation purpose. However, these works often consider these medical concepts as independent and isolated labels while in fact the subtle relationships between various concepts are neglected. In this work, we introduce the use of knowledge graphs to measure the distance between various medical concepts and propose a novel relevance measure for the evaluation of CBIR by defining an approximate matching-based relevance score between two sets of medical concepts which allows us to indirectly measure the similarity between medical images.We quantitatively demonstrate the effectiveness and feasibility of our relevance measure using a public dataset.

arxiv情報

著者 Xiaoyang Wei,Camille Kurtz,Florence Cloppet
発行日 2025-06-16 14:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Semantically-Aware Relevance Measure for Content-Based Medical Image Retrieval Evaluation はコメントを受け付けていません

Micro-macro Gaussian Splatting with Enhanced Scalability for Unconstrained Scene Reconstruction

要約

制約のない画像コレクションから3Dシーンを再構築することは、外観のばらつきのために大きな課題をもたらします。
このホワイトペーパーでは、シーン表現をグローバル、洗練された、および固有のコンポーネントに分解することにより、多様なスケール全体の3D再構成を強化する新しい方法である、スケーラブルなマイクロマクロベーブレットベースのガウススプラッティング(SMW-GS)を提案します。
SMW-GSには、次のイノベーションが組み込まれています。マイクロマクロ投影により、ガウスポイントは多様性を改善してマルチスケールの詳細をサンプリングできます。
また、頻度ドメイン情報を使用して機能表現を改良し、複雑なシーンの外観をよりよくキャプチャするウェーブレットベースのサンプリング。
スケーラビリティを実現するために、ガウスポイントへの貢献を最大化し、広大な環境でも一貫した高品質の再構築を達成することにより、カメラビューをシーンパーティションに最適に割り当てる大規模なシーンプロモーション戦略をさらに提案します。
広範な実験は、SMW-GSが再構成の品質とスケーラビリティの両方で既存の方法を大幅に上回ることを示しています。
プロジェクトはhttps://github.com/kidleyh/smw-gsで入手できます。

要約(オリジナル)

Reconstructing 3D scenes from unconstrained image collections poses significant challenges due to variations in appearance. In this paper, we propose Scalable Micro-macro Wavelet-based Gaussian Splatting (SMW-GS), a novel method that enhances 3D reconstruction across diverse scales by decomposing scene representations into global, refined, and intrinsic components. SMW-GS incorporates the following innovations: Micro-macro Projection, which enables Gaussian points to sample multi-scale details with improved diversity; and Wavelet-based Sampling, which refines feature representations using frequency-domain information to better capture complex scene appearances. To achieve scalability, we further propose a large-scale scene promotion strategy, which optimally assigns camera views to scene partitions by maximizing their contributions to Gaussian points, achieving consistent and high-quality reconstructions even in expansive environments. Extensive experiments demonstrate that SMW-GS significantly outperforms existing methods in both reconstruction quality and scalability, particularly excelling in large-scale urban environments with challenging illumination variations. Project is available at https://github.com/Kidleyh/SMW-GS.

arxiv情報

著者 Yihui Li,Chengxin Lv,Hongyu Yang,Di Huang
発行日 2025-06-16 14:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Micro-macro Gaussian Splatting with Enhanced Scalability for Unconstrained Scene Reconstruction はコメントを受け付けていません

Structureless VIO

要約

視覚的臭気(VO)は、通常、鶏肉と卵の問題と見なされます。これは、ローカリゼーションとマッピングモジュールがしっかりと結合されているためです。
視覚マップの推定は、正確なローカリゼーション情報に依存しています。
一方、ローカライズには、モーション制約を提供するために正確なマップポイントが必要です。
この古典的なデザインの原則は、視覚型臭気(VIO)によって自然に継承されます。
マップを必要としない効率的なローカリゼーションソリューションは完全に調査されていません。
この目的のために、視覚マップがodometryフレームワークから削除される新しい構造のないVioを提案します。
実験結果は、構造ベースのVioベースラインと比較して、私たちの構造のないVioが計算効率を大幅に改善するだけでなく、精度にも利点があることを実証しました。

要約(オリジナル)

Visual odometry (VO) is typically considered as a chicken-and-egg problem, as the localization and mapping modules are tightly-coupled. The estimation of a visual map relies on accurate localization information. Meanwhile, localization requires precise map points to provide motion constraints. This classical design principle is naturally inherited by visual-inertial odometry (VIO). Efficient localization solutions that do not require a map have not been fully investigated. To this end, we propose a novel structureless VIO, where the visual map is removed from the odometry framework. Experimental results demonstrated that, compared to the structure-based VIO baseline, our structureless VIO not only substantially improves computational efficiency but also has advantages in accuracy.

arxiv情報

著者 Junlin Song,Miguel Olivares-Mendez
発行日 2025-06-16 14:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Structureless VIO はコメントを受け付けていません

Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars

要約

地球観測衛星の数が増えているため、さまざまな空間、スペクトル、および時間的構成を備えた、ますます多様なリモートセンシングデータが生じています。
ほとんどの既存のモデルは、固定された入力形式とモダリティ固有のエンコーダーに依存しています。これは、新しい構成が導入されたときに再トレーニングが必要であり、モダリティ全体で一般化する能力を制限します。
リモートセンシング画像をスカラーのセットとして表す柔軟なアーキテクチャであるAtomizerを紹介します。
各スカラーには、コンテキストメタデータ(取得時間、空間分解能、波長、帯域幅)が濃縮されており、単一のエンコーダーが補間や再サンプリングなしで任意のモダリティを処理できる原子表現を生成します。
Atomizerは、フーリエ機能と不均一な放射状基底関数を使用した構造化されたトークン化を使用して、コンテンツとコンテキストをエンコードし、クロスアテナンスを介してトークンを潜在空間にマッピングします。
Modality-Disjoint評価では、Atomizerは標準モデルを上回り、さまざまな解像度と空間サイズで堅牢なパフォーマンスを示します。

要約(オリジナル)

The growing number of Earth observation satellites has led to increasingly diverse remote sensing data, with varying spatial, spectral, and temporal configurations. Most existing models rely on fixed input formats and modality-specific encoders, which require retraining when new configurations are introduced, limiting their ability to generalize across modalities. We introduce Atomizer, a flexible architecture that represents remote sensing images as sets of scalars, each corresponding to a spectral band value of a pixel. Each scalar is enriched with contextual metadata (acquisition time, spatial resolution, wavelength, and bandwidth), producing an atomic representation that allows a single encoder to process arbitrary modalities without interpolation or resampling. Atomizer uses structured tokenization with Fourier features and non-uniform radial basis functions to encode content and context, and maps tokens into a latent space via cross-attention. Under modality-disjoint evaluations, Atomizer outperforms standard models and demonstrates robust performance across varying resolutions and spatial sizes.

arxiv情報

著者 Hugo Riffaud de Turckheim,Sylvain Lobry,Roberto Interdonato,Diego Marcos
発行日 2025-06-16 14:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars はコメントを受け付けていません

Limited-Angle CBCT Reconstruction via Geometry-Integrated Cycle-domain Denoising Diffusion Probabilistic Models

要約

コーンビームCT(CBCT)は、画像誘導治療のために臨床放射線療法で広く使用されており、セットアップの精度、適応計画、およびモーション管理の改善があります。
ただし、ガントリーの回転が遅いことで、モーションアーティファクト、ぼやけ、および増加する用量を導入することにより、性能が制限されます。
この作業の目的は、連続した限定角度取得から高品質のCBCTボリュームを再構築するための臨床的に実行可能な方法を開発し、時間または用量の制約のある設定でのイメージングの課題に対処することを目的としています。
CBCT再構成のための限定角度(LA)ジオメトリ統合サイクルドメイン(LA-GICD)フレームワークを提案します。
Projection-DDPMは、欠落している投影を完了し、その後バックプロジェクションが続き、Image-DDPMがボリュームを改良します。
このデュアルドメイン設計は、投影および画像スペースからの補完的な事前を活用して、限られた角度(<= 90度)スキャンから高品質の再構築を実現します。 パフォーマンスは、全角再構成に対して評価されました。 4人の理事会認定医療物理学者が評価を実施しました。 一般的なCBCT形状の合計78の計画CTがトレーニングと評価に使用されました。 この方法は、35.5 hu、0.84のSSIM、および29.8 dBのPSNRの平均絶対誤差を達成し、目に見えて軟部組織の透明度が目に見えて減少しました。 LA-GICDのジオメトリ認識デュアルドメイン学習は、分析的フォワード/バックワードオペレーターに組み込まれており、1つの90度スキャンからのアーティファクトフリーの高コントラスト再構成を可能にし、取得時間を短縮し、4倍にします。 LA-GICDは、強力なデータの忠実度と解剖学的リアリズムを備えた限定角CBCT再構成を改善します。 これは、ショートARCの獲得のための実用的なソリューションを提供し、より正確でパーソナライズされた治療のためにスキャン時間と用量を短縮した臨床的に適用可能な画像を提供することにより、放射線療法でのCBCTの使用を強化します。

要約(オリジナル)

Cone-beam CT (CBCT) is widely used in clinical radiotherapy for image-guided treatment, improving setup accuracy, adaptive planning, and motion management. However, slow gantry rotation limits performance by introducing motion artifacts, blurring, and increased dose. This work aims to develop a clinically feasible method for reconstructing high-quality CBCT volumes from consecutive limited-angle acquisitions, addressing imaging challenges in time- or dose-constrained settings. We propose a limited-angle (LA) geometry-integrated cycle-domain (LA-GICD) framework for CBCT reconstruction, comprising two denoising diffusion probabilistic models (DDPMs) connected via analytic cone-beam forward and back projectors. A Projection-DDPM completes missing projections, followed by back-projection, and an Image-DDPM refines the volume. This dual-domain design leverages complementary priors from projection and image spaces to achieve high-quality reconstructions from limited-angle (<= 90 degrees) scans. Performance was evaluated against full-angle reconstruction. Four board-certified medical physicists conducted assessments. A total of 78 planning CTs in common CBCT geometries were used for training and evaluation. The method achieved a mean absolute error of 35.5 HU, SSIM of 0.84, and PSNR of 29.8 dB, with visibly reduced artifacts and improved soft-tissue clarity. LA-GICD's geometry-aware dual-domain learning, embedded in analytic forward/backward operators, enabled artifact-free, high-contrast reconstructions from a single 90-degree scan, reducing acquisition time and dose four-fold. LA-GICD improves limited-angle CBCT reconstruction with strong data fidelity and anatomical realism. It offers a practical solution for short-arc acquisitions, enhancing CBCT use in radiotherapy by providing clinically applicable images with reduced scan time and dose for more accurate, personalized treatments.

arxiv情報

著者 Yuan Gao,Shaoyan Pan,Mingzhe Hu,Huiqiao Xie,Jill Remick,Chih-Wei Chang,Justin Roper,Zhen Tian,Xiaofeng Yang
発行日 2025-06-16 14:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Limited-Angle CBCT Reconstruction via Geometry-Integrated Cycle-domain Denoising Diffusion Probabilistic Models はコメントを受け付けていません

A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects

要約

ビデオシーンの解析(VSP)は、コンピュータービジョンの基礎として浮上し、ダイナミックシーンでの多様な視覚エンティティの同時セグメンテーション、認識、追跡を促進しました。
この調査では、ビデオセマンティックセグメンテーション(VSS)、ビデオインスタンスセグメンテーション(VIS)、ビデオパノプティックセグメンテーション(VPS)、ビデオトラッキングとセグメンテーション(VTS)、およびオープンボカリックビデオセグメンテーション(OVVS)を含む幅広いビジョンタスクをカバーするVSPの最近の進歩の総合的なレビューを提示します。
従来の手作りの特徴から、完全に畳み込み的なネットワークから最新の変圧器ベースのアーキテクチャに至るまでの現代の深い学習パラダイムへの進化を体系的に分析し、ローカルおよびグローバルな時間的コンテキストの両方をキャプチャする際の有効性を評価します。
さらに、我々のレビューでは、時間的一貫性の維持から複雑なシーンのダイナミクスの処理に至るまで、技術的な課題について批判的に説明し、現在のベンチマーク基準を形成したデータセットと評価メトリックの包括的な比較研究を提供します。
最先端の方法論の重要な貢献と欠点を蒸留することにより、この調査は、現実世界のアプリケーションにおけるVSPの堅牢性と適応性をさらに高めることを約束する新たな傾向と将来の研究方向を強調しています。

要約(オリジナル)

Video Scene Parsing (VSP) has emerged as a cornerstone in computer vision, facilitating the simultaneous segmentation, recognition, and tracking of diverse visual entities in dynamic scenes. In this survey, we present a holistic review of recent advances in VSP, covering a wide array of vision tasks, including Video Semantic Segmentation (VSS), Video Instance Segmentation (VIS), Video Panoptic Segmentation (VPS), as well as Video Tracking and Segmentation (VTS), and Open-Vocabulary Video Segmentation (OVVS). We systematically analyze the evolution from traditional hand-crafted features to modern deep learning paradigms — spanning from fully convolutional networks to the latest transformer-based architectures — and assess their effectiveness in capturing both local and global temporal contexts. Furthermore, our review critically discusses the technical challenges, ranging from maintaining temporal consistency to handling complex scene dynamics, and offers a comprehensive comparative study of datasets and evaluation metrics that have shaped current benchmarking standards. By distilling the key contributions and shortcomings of state-of-the-art methodologies, this survey highlights emerging trends and prospective research directions that promise to further elevate the robustness and adaptability of VSP in real-world applications.

arxiv情報

著者 Guohuan Xie,Syed Ariff Syed Hesham,Wenya Guo,Bing Li,Ming-Ming Cheng,Guolei Sun,Yun Liu
発行日 2025-06-16 14:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects はコメントを受け付けていません

RelTopo: Enhancing Relational Modeling for Driving Scene Topology Reasoning

要約

正確な道路トポロジの推論は、自律的な運転にとって重要であり、効果的なナビゲーションと交通規制の順守を可能にします。
このタスクの中心は、車線認識とトポロジーの推論です。
ただし、既存の方法は通常、レーン検出またはレーン間(L2L)トポロジーの推論のいずれかに焦点を当てています。多くの場合、\ textit {無視}レーンとトラフィックエレメント(L2T)関係または\ textIT {失敗}これらのタスクを共同で最適化します。
さらに、ほとんどのアプローチは、道路要素間の固有の空間的関係にもかかわらず、リレーショナルモデリングを見落とすか、限られた範囲で適用します。
人間は道路要素認識とその接続性推論のために自然に文脈関係を活用するため、リレーショナルモデリングは知覚と推論の両方に有益であると主張します。
この目的のために、知覚と推論の両方にリレーショナルモデリングを導入します。
具体的には、次の提案を提案します。1)リレーショナル依存関係をキャプチャすることにより、幾何学的に偏った自己触たちと\ curve \ cross-attention \ cross-attentionを洗練する関係を認識するレーン検出器。
2)形状強化L2LヘッドとクロスビューL2Tヘッドを含む関係強化トポロジヘッドは、リレーショナルキューで推論を強化します。
3)関係の埋め込みを正規化するためのInfonceの損失を伴う対照的な学習戦略。
OpenLane-V2の広範な実験は、私たちのアプローチが検出とトポロジの推論メトリックの両方を大幅に改善し、Det $ _L $で+3.1を達成することを示しています。
コードがリリースされます。

要約(オリジナル)

Accurate road topology reasoning is critical for autonomous driving, enabling effective navigation and adherence to traffic regulations. Central to this task are lane perception and topology reasoning. However, existing methods typically focus on either lane detection or Lane-to-Lane (L2L) topology reasoning, often \textit{neglecting} Lane-to-Traffic-element (L2T) relationships or \textit{failing} to optimize these tasks jointly. Furthermore, most approaches either overlook relational modeling or apply it in a limited scope, despite the inherent spatial relationships among road elements. We argue that relational modeling is beneficial for both perception and reasoning, as humans naturally leverage contextual relationships for road element recognition and their connectivity inference. To this end, we introduce relational modeling into both perception and reasoning, \textit{jointly} enhancing structural understanding. Specifically, we propose: 1) a relation-aware lane detector, where our geometry-biased self-attention and \curve\ cross-attention refine lane representations by capturing relational dependencies; 2) relation-enhanced topology heads, including a geometry-enhanced L2L head and a cross-view L2T head, boosting reasoning with relational cues; and 3) a contrastive learning strategy with InfoNCE loss to regularize relationship embeddings. Extensive experiments on OpenLane-V2 demonstrate that our approach significantly improves both detection and topology reasoning metrics, achieving +3.1 in DET$_l$, +5.3 in TOP$_{ll}$, +4.9 in TOP$_{lt}$, and an overall +4.4 in OLS, setting a new state-of-the-art. Code will be released.

arxiv情報

著者 Yueru Luo,Changqing Zhou,Yiming Yang,Erlong Li,Chao Zheng,Shuqi Mei,Shuguang Cui,Zhen Li
発行日 2025-06-16 14:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RelTopo: Enhancing Relational Modeling for Driving Scene Topology Reasoning はコメントを受け付けていません