BOP-Distrib: Revisiting 6D Pose Estimation Benchmarks for Better Evaluation under Visual Ambiguities

要約

6Dポーズ推定は、カメラの観察を最もよく説明するオブジェクトのポーズを決定することを目的としています。
非曖昧なオブジェクトのユニークなソリューションは、視点に応じて、対称オブジェクトのマルチモーダルポーズ分布、または対称的な要素の閉塞が発生したときに発生する場合に変換できます。
現在、6Dポーズ推定方法は、グラウンドトゥルースの注釈について、グローバルオブジェクトの対称性にのみ関連する視覚的なあいまいさを考慮するデータセットにベンチマークされていますが、カメラの視点を説明するためにイメージごとに定義する必要があります。
したがって、最初に、画像のオブジェクト表面の可視性を考慮して、視覚的なあいまいさを正しく決定するために、各画像に固有の6Dポーズ分布でそれらのデータセットを再現する自動メソッドを提案します。
第二に、この改善された地上の真理を考えると、最先端のシングルポーズメソッドを再評価し、これがこれらの方法のランキングを大幅に変更することを示します。
第三に、いくつかの最近の研究がソリューションの完全なセットを推定することに焦点を当てているため、画像ごとの分布グラウンドトゥルースに対してそれらを評価するための精度/リコールの定式化を導き出し、実際の画像でのポーズ分布方法の最初のベンチマークにします。

要約(オリジナル)

6D pose estimation aims at determining the object pose that best explains the camera observation. The unique solution for non-ambiguous objects can turn into a multi-modal pose distribution for symmetrical objects or when occlusions of symmetry-breaking elements happen, depending on the viewpoint. Currently, 6D pose estimation methods are benchmarked on datasets that consider, for their ground truth annotations, visual ambiguities as only related to global object symmetries, whereas they should be defined per-image to account for the camera viewpoint. We thus first propose an automatic method to re-annotate those datasets with a 6D pose distribution specific to each image, taking into account the object surface visibility in the image to correctly determine the visual ambiguities. Second, given this improved ground truth, we re-evaluate the state-of-the-art single pose methods and show that this greatly modifies the ranking of these methods. Third, as some recent works focus on estimating the complete set of solutions, we derive a precision/recall formulation to evaluate them against our image-wise distribution ground truth, making it the first benchmark for pose distribution methods on real images.

arxiv情報

著者 Boris Meden,Asma Brazi,Fabrice Mayran de Chamisso,Steve Bourgeois,Vincent Lepetit
発行日 2025-05-14 14:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BOP-Distrib: Revisiting 6D Pose Estimation Benchmarks for Better Evaluation under Visual Ambiguities はコメントを受け付けていません

FreeDriveRF: Monocular RGB Dynamic NeRF without Poses for Autonomous Driving via Point-Level Dynamic-Static Decoupling

要約

自律運転の動的シーンの再構築により、車両は複雑なシーンの変化をより正確に認識して解釈できます。
動的ニューラル放射輝度(NERF)は最近、シーンモデリングに有望な能力を示しています。
ただし、多くの既存の方法は、正確なポーズ入力とマルチセンサーデータに大きく依存しており、システムの複雑さの向上につながります。
これに対処するために、Poses入力を必要とせずにシーケンシャルRGB画像のみを使用して動的な駆動シーンを再構築するFreedriverfを提案します。
セマンティック監督を使用して、初期のサンプリングレベルで動的および静的部分を革新的に切り離し、画像のぼやけとアーティファクトを緩和します。
単眼カメラのオブジェクトの動きと閉塞によってもたらされる課題を克服するために、動的モデリングプロセスをよりよく制限するために光学フローを利用して、ゆがんだ光線誘導ダイナミックオブジェクトレンダリングの一貫性の損失を導入します。
さらに、推定された動的流れを組み込み、ポーズ最適化プロセスを制限し、無制限のシーン再構成の安定性と精度を改善します。
KittiおよびWaymoデータセットで実施された広範な実験は、自律運転の動的シーンモデリングにおける私たちの方法の優れた性能を示しています。

要約(オリジナル)

Dynamic scene reconstruction for autonomous driving enables vehicles to perceive and interpret complex scene changes more precisely. Dynamic Neural Radiance Fields (NeRFs) have recently shown promising capability in scene modeling. However, many existing methods rely heavily on accurate poses inputs and multi-sensor data, leading to increased system complexity. To address this, we propose FreeDriveRF, which reconstructs dynamic driving scenes using only sequential RGB images without requiring poses inputs. We innovatively decouple dynamic and static parts at the early sampling level using semantic supervision, mitigating image blurring and artifacts. To overcome the challenges posed by object motion and occlusion in monocular camera, we introduce a warped ray-guided dynamic object rendering consistency loss, utilizing optical flow to better constrain the dynamic modeling process. Additionally, we incorporate estimated dynamic flow to constrain the pose optimization process, improving the stability and accuracy of unbounded scene reconstruction. Extensive experiments conducted on the KITTI and Waymo datasets demonstrate the superior performance of our method in dynamic scene modeling for autonomous driving.

arxiv情報

著者 Yue Wen,Liang Song,Yijia Liu,Siting Zhu,Yanzi Miao,Lijun Han,Hesheng Wang
発行日 2025-05-14 14:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FreeDriveRF: Monocular RGB Dynamic NeRF without Poses for Autonomous Driving via Point-Level Dynamic-Static Decoupling はコメントを受け付けていません

Sparse Point Cloud Patches Rendering via Splitting 2D Gaussians

要約

現在の学習ベースの方法は、ポイントクラウドからNERFまたは3Dガウスを予測して、写真と現実的なレンダリングを実現しますが、カテゴリの前層、密なポイント雲、または追加の改良に依存しています。
したがって、ポイントクラウドから2Dガウスを予測することにより、新しいポイントクラウドレンダリング方法を導入します。
このメソッドには、パッチ全体のアーキテクチャを備えた2つの同一のモジュールが組み込まれており、ネットワークを複数のデータセットに一般化できるようにします。
モジュールは、正規、色、距離などのポイントクラウド情報を使用して、ガウスを正規化および初期化します。
次に、デコーダーを分割して、それらを複製し、より正確な結果を予測することにより、最初のガウスを改良するために採用され、方法論がまばらな点雲にも効果的に対応します。
訓練されると、私たちのアプローチは、さまざまなカテゴリにわたってクラウドを指すように直接一般化を示します。
予測されたガウス人は、レンダリングされた画像をさらに洗練することなくレンダリングに直接採用され、2Dガウスの利点を保持しています。
さまざまなデータセットで広範な実験を実施し、結果はSOTAパフォーマンスを達成する方法の優位性と一般化を示しています。
このコードは、https://github.com/murcherful/gaupcredend} {https://github.com/murcherful/gaupcredendで入手できます。

要約(オリジナル)

Current learning-based methods predict NeRF or 3D Gaussians from point clouds to achieve photo-realistic rendering but still depend on categorical priors, dense point clouds, or additional refinements. Hence, we introduce a novel point cloud rendering method by predicting 2D Gaussians from point clouds. Our method incorporates two identical modules with an entire-patch architecture enabling the network to be generalized to multiple datasets. The module normalizes and initializes the Gaussians utilizing the point cloud information including normals, colors and distances. Then, splitting decoders are employed to refine the initial Gaussians by duplicating them and predicting more accurate results, making our methodology effectively accommodate sparse point clouds as well. Once trained, our approach exhibits direct generalization to point clouds across different categories. The predicted Gaussians are employed directly for rendering without additional refinement on the rendered images, retaining the benefits of 2D Gaussians. We conduct extensive experiments on various datasets, and the results demonstrate the superiority and generalization of our method, which achieves SOTA performance. The code is available at https://github.com/murcherful/GauPCRender}{https://github.com/murcherful/GauPCRender.

arxiv情報

著者 Ma Changfeng,Bi Ran,Guo Jie,Wang Chongjun,Guo Yanwen
発行日 2025-05-14 14:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sparse Point Cloud Patches Rendering via Splitting 2D Gaussians はコメントを受け付けていません

FaceShield: Explainable Face Anti-Spoofing with Multimodal Large Language Models

要約

顔の認識システムをプレゼンテーション攻撃から保護するためには、顔のアンチスプーフィング(FAS)が重要です。
以前の方法は、このタスクに分類の問題としてアプローチしましたが、予測された結果の背後にある解釈性と推論が欠けていました。
最近、マルチモーダルの大手言語モデル(MLLM)は、視覚タスクにおける知覚、推論、意思決定において強力な能力を示しています。
ただし、現在、FASタスク用に特別に設計された普遍的で包括的なMLLMおよびデータセットはありません。
このギャップに対処するために、FASのMLLMであるFACESHIELDを提案します。また、対応するプリトレーニングおよび監視付きの微調整(SFT)データセット、Faceshield-PRE10KおよびFaceshield-SFT45Kを提案します。
Faceshieldは、顔の信頼性を決定し、スプーフィング攻撃の種類を特定し、その判断の推論を提供し、攻撃領域を検出することができます。
具体的には、事前知識に基づいて元の画像と補助情報の両方を組み込んだスプーフィングアウェアビジョン認識(SAVP)を採用しています。
次に、Visionトークンをランダムにマスクするために、プロンプトガイド付きVisionトークンマスキング(PVTM)戦略を使用して、モデルの一般化能力を改善します。
3つのベンチマークデータセットで広範な実験を実施し、Faceshieldが4つのFASタスクで以前の深い学習モデルと一般的なMLLMを大幅に上回ることを実証しました。
命令データセット、プロトコル、およびコードはまもなくリリースされます。

要約(オリジナル)

Face anti-spoofing (FAS) is crucial for protecting facial recognition systems from presentation attacks. Previous methods approached this task as a classification problem, lacking interpretability and reasoning behind the predicted results. Recently, multimodal large language models (MLLMs) have shown strong capabilities in perception, reasoning, and decision-making in visual tasks. However, there is currently no universal and comprehensive MLLM and dataset specifically designed for FAS task. To address this gap, we propose FaceShield, a MLLM for FAS, along with the corresponding pre-training and supervised fine-tuning (SFT) datasets, FaceShield-pre10K and FaceShield-sft45K. FaceShield is capable of determining the authenticity of faces, identifying types of spoofing attacks, providing reasoning for its judgments, and detecting attack areas. Specifically, we employ spoof-aware vision perception (SAVP) that incorporates both the original image and auxiliary information based on prior knowledge. We then use an prompt-guided vision token masking (PVTM) strategy to random mask vision tokens, thereby improving the model’s generalization ability. We conducted extensive experiments on three benchmark datasets, demonstrating that FaceShield significantly outperforms previous deep learning models and general MLLMs on four FAS tasks, i.e., coarse-grained classification, fine-grained classification, reasoning, and attack localization. Our instruction datasets, protocols, and codes will be released soon.

arxiv情報

著者 Hongyang Wang,Yichen Shi,Zhuofu Tao,Yuhao Gao,Liepiao Zhang,Xun Lin,Jun Feng,Xiaochen Yuan,Zitong Yu,Xiaochun Cao
発行日 2025-05-14 14:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FaceShield: Explainable Face Anti-Spoofing with Multimodal Large Language Models はコメントを受け付けていません

MoRAL: Motion-aware Multi-Frame 4D Radar and LiDAR Fusion for Robust 3D Object Detection

要約

信頼性の高い自律駆動システムには、交通参加者の正確な検出が必要です。
この目的のために、マルチモーダル融合は効果的な戦略として浮上しています。
特に、マルチフレームレーダーポイントクラウドに基づく4Dレーダーおよびライダー融合法は、点密度ギャップを埋める際の有効性を実証しています。
しかし、彼らはしばしば、蓄積中のオブジェクトの動きによって引き起こされるレーダーポイントクラウドのフレーム間不整合を無視し、4Dレーダーからオブジェクトの動的情報を完全に活用しません。
この論文では、堅牢な3Dオブジェクト検出のためのモーションを受けたマルチフレーム4Dレーダーとライダーフュージョンフレームワークであるモラルを提案します。
まず、モーション認識レーダーエンコーダー(MRE)は、移動するオブジェクトからのフレーム間のレーダーの不整合を補うように設計されています。
その後、動きの注意ゲートフュージョン(MAGF)モジュールがレーダーモーション機能を統合して、LIDAR機能をガイドして動的な前景オブジェクトに焦点を当てます。
Delft(VOD)データセットに関する広範な評価は、道徳的な既存の方法を上回ることを示しており、領域全体で73.30%、駆動回廊で88.68%の最高マップを達成することを示しています。
特に、私たちの方法は、地域全体の歩行者で69.67%の最高のAP、運転廊下のサイクリストで96.25%を達成しています。

要約(オリジナル)

Reliable autonomous driving systems require accurate detection of traffic participants. To this end, multi-modal fusion has emerged as an effective strategy. In particular, 4D radar and LiDAR fusion methods based on multi-frame radar point clouds have demonstrated the effectiveness in bridging the point density gap. However, they often neglect radar point clouds’ inter-frame misalignment caused by object movement during accumulation and do not fully exploit the object dynamic information from 4D radar. In this paper, we propose MoRAL, a motion-aware multi-frame 4D radar and LiDAR fusion framework for robust 3D object detection. First, a Motion-aware Radar Encoder (MRE) is designed to compensate for inter-frame radar misalignment from moving objects. Later, a Motion Attention Gated Fusion (MAGF) module integrate radar motion features to guide LiDAR features to focus on dynamic foreground objects. Extensive evaluations on the View-of-Delft (VoD) dataset demonstrate that MoRAL outperforms existing methods, achieving the highest mAP of 73.30% in the entire area and 88.68% in the driving corridor. Notably, our method also achieves the best AP of 69.67% for pedestrians in the entire area and 96.25% for cyclists in the driving corridor.

arxiv情報

著者 Xiangyuan Peng,Yu Wang,Miao Tang,Bierzynski Kay,Lorenzo Servadei,Robert Wille
発行日 2025-05-14 14:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MoRAL: Motion-aware Multi-Frame 4D Radar and LiDAR Fusion for Robust 3D Object Detection はコメントを受け付けていません

F$^3$Loc: Fusion and Filtering for Floorplan Localization

要約

この論文では、フロアプラン内の自己局在化に対する効率的なデータ駆動型ソリューションを提案します。
フロアプランデータは容易に入手でき、長期的に持続性があり、視覚的な外観の変化に対して本質的に堅牢です。
私たちの方法では、マップと場所ごとに再訓練する必要はありませんし、関心のある領域の画像の大きなデータベースを要求しません。
観察と新しい時間ろ過モジュールで構成される新しい確率モデルを提案します。
効率的な光線ベースの表現を使用して内部で動作する観測モジュールは、単一とマルチビューモジュールで構成され、画像から水平の深さを予測し、結果を融合させて、いずれかの方法論によって提供される利点から利益を得ます。
私たちの方法は、従来の消費者ハードウェアで動作し、しばしば直立した画像を要求する競合する方法の一般的な制限を克服します。
当社の完全なシステムは、リアルタイムの要件を満たしており、最先端を大幅に上回っています。

要約(オリジナル)

In this paper we propose an efficient data-driven solution to self-localization within a floorplan. Floorplan data is readily available, long-term persistent and inherently robust to changes in the visual appearance. Our method does not require retraining per map and location or demand a large database of images of the area of interest. We propose a novel probabilistic model consisting of an observation and a novel temporal filtering module. Operating internally with an efficient ray-based representation, the observation module consists of a single and a multiview module to predict horizontal depth from images and fuses their results to benefit from advantages offered by either methodology. Our method operates on conventional consumer hardware and overcomes a common limitation of competing methods that often demand upright images. Our full system meets real-time requirements, while outperforming the state-of-the-art by a significant margin.

arxiv情報

著者 Changan Chen,Rui Wang,Christoph Vogel,Marc Pollefeys
発行日 2025-05-14 14:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | F$^3$Loc: Fusion and Filtering for Floorplan Localization はコメントを受け付けていません

Efficient LiDAR Reflectance Compression via Scanning Serialization

要約

Lidar Point Cloudsの反射属性は、下流のタスクに不可欠な情報を提供しますが、神経圧縮法では露出度の低いままです。
これに対処するために、リダー反射率の固有の特性を完全に活用するために、シリアル化ベースの神経圧縮フレームワークであるSerlicを紹介します。
Serlicは、最初に3D Lidar Point Cloudsをスキャンオーダーシリアル化を介して1Dシーケンスに変換し、反射率分析のためのデバイス中心の視点を提供します。
次に、効果的な依存関係の調査のために、各ポイントをセンサースキャンインデックス、半径方向の距離、および事前反射率を含むコンテキスト表現にトークン化されます。
効率的なシーケンシャルモデリングのために、MAMBAは二重の並列化スキームに組み込まれており、同時自己回帰依存関係キャプチャと高速処理を可能にします。
広範な実験は、Serlicが元の反射率データに対して2倍以上のボリューム削減を達成することを示しており、そのパラメーターの2%しか使用しない一方で、最先端の方法を圧縮ビットの最大22%減少させたことが示されています。
さらに、Serlicの軽量バージョンは、わずか111kパラメーターで10 fps(1秒あたりのフレーム)を達成します。これは、実際のアプリケーションにとって魅力的です。

要約(オリジナル)

Reflectance attributes in LiDAR point clouds provide essential information for downstream tasks but remain underexplored in neural compression methods. To address this, we introduce SerLiC, a serialization-based neural compression framework to fully exploit the intrinsic characteristics of LiDAR reflectance. SerLiC first transforms 3D LiDAR point clouds into 1D sequences via scan-order serialization, offering a device-centric perspective for reflectance analysis. Each point is then tokenized into a contextual representation comprising its sensor scanning index, radial distance, and prior reflectance, for effective dependencies exploration. For efficient sequential modeling, Mamba is incorporated with a dual parallelization scheme, enabling simultaneous autoregressive dependency capture and fast processing. Extensive experiments demonstrate that SerLiC attains over 2x volume reduction against the original reflectance data, outperforming the state-of-the-art method by up to 22% reduction of compressed bits while using only 2% of its parameters. Moreover, a lightweight version of SerLiC achieves > 10 fps (frames per second) with just 111K parameters, which is attractive for real-world applications.

arxiv情報

著者 Jiahao Zhu,Kang You,Dandan Ding,Zhan Ma
発行日 2025-05-14 14:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Efficient LiDAR Reflectance Compression via Scanning Serialization はコメントを受け付けていません

Endo-CLIP: Progressive Self-Supervised Pre-training on Raw Colonoscopy Records

要約

画像テキストの大腸内視鏡検査記録の事前トレーニングは、内視鏡画像分析を改善するための大きな可能性を提供しますが、非情報的な背景画像、複雑な医療用語、曖昧な多病期の説明などの課題に直面しています。
このドメインの対照的な言語イメージ(CLIP)を強化する新しい自己監視フレームワークであるEndo-Clipを紹介します。
Endo-Clipの3段階のフレームワーク – クレンディング、アチューン、統一 – は、(1)背景フレームを削除することにより、これらの課題を採用します。
広範な実験は、Endo-Clipがゼロショットおよび少数のPolypの検出と分類で最先端のトレーニング前の方法を大幅に上回り、より正確で臨床的に関連する内視鏡分析への道を開くことを示しています。

要約(オリジナル)

Pre-training on image-text colonoscopy records offers substantial potential for improving endoscopic image analysis, but faces challenges including non-informative background images, complex medical terminology, and ambiguous multi-lesion descriptions. We introduce Endo-CLIP, a novel self-supervised framework that enhances Contrastive Language-Image Pre-training (CLIP) for this domain. Endo-CLIP’s three-stage framework–cleansing, attunement, and unification–addresses these challenges by (1) removing background frames, (2) leveraging large language models to extract clinical attributes for fine-grained contrastive learning, and (3) employing patient-level cross-attention to resolve multi-polyp ambiguities. Extensive experiments demonstrate that Endo-CLIP significantly outperforms state-of-the-art pre-training methods in zero-shot and few-shot polyp detection and classification, paving the way for more accurate and clinically relevant endoscopic analysis.

arxiv情報

著者 Yili He,Yan Zhu,Peiyao Fu,Ruijie Yang,Tianyi Chen,Zhihua Wang,Quanlin Li,Pinghong Zhou,Xian Yang,Shuo Wang
発行日 2025-05-14 14:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Endo-CLIP: Progressive Self-Supervised Pre-training on Raw Colonoscopy Records はコメントを受け付けていません

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment

要約

メッシュ品質評価(MQA)モデルは、さまざまなアプリケーションでのメッシュ動作システムの設計、最適化、および評価において重要な役割を果たします。
現在のMQAモデルは、トポロジ認識機能を使用したモデルベースの方法であろうと、レンダリングされた2Dプロジェクションで動作する投影ベースのアプローチを使用して、テクスチャと3Dジオメトリの複雑な相互作用をキャプチャできないことがよくあります。
モデルベースとプロジェクションベースのアプローチを統合する最初のハイブリッドフルレファレンス色のMQAフレームワークであるHybridMQAを紹介し、テクスチャ情報と3D構造の間の複雑な相互作用をキャプチャして、豊富な品質表現をキャプチャします。
私たちの方法では、詳細な3D表現を抽出するためのグラフ学習を採用しています。これは、色の投影と正確に整列する新しい機能レンダリングプロセスを使用して2Dに投影されます。
これにより、交差に関する幾何学的テクスチャー相互作用の調査が可能になり、包括的なメッシュ品質表現が生成されます。
広範な実験は、多様なデータセット全体でハイブリッドMQAの優れたパフォーマンスを示し、メッシュの品質を完全に理解するためにジオメトリテクスチャーの相互作用を効果的に活用する能力を強調しています。
私たちの実装は公開されます。

要約(オリジナル)

Mesh quality assessment (MQA) models play a critical role in the design, optimization, and evaluation of mesh operation systems in a wide variety of applications. Current MQA models, whether model-based methods using topology-aware features or projection-based approaches working on rendered 2D projections, often fail to capture the intricate interactions between texture and 3D geometry. We introduce HybridMQA, a first-of-its-kind hybrid full-reference colored MQA framework that integrates model-based and projection-based approaches, capturing complex interactions between textural information and 3D structures for enriched quality representations. Our method employs graph learning to extract detailed 3D representations, which are then projected to 2D using a novel feature rendering process that precisely aligns them with colored projections. This enables the exploration of geometry-texture interactions via cross-attention, producing comprehensive mesh quality representations. Extensive experiments demonstrate HybridMQA’s superior performance across diverse datasets, highlighting its ability to effectively leverage geometry-texture interactions for a thorough understanding of mesh quality. Our implementation will be made publicly available.

arxiv情報

著者 Armin Shafiee Sarvestani,Sheyang Tang,Zhou Wang
発行日 2025-05-14 14:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment はコメントを受け付けていません

MrTrack: Register Mamba for Needle Tracking with Rapid Reciprocating Motion during Ultrasound-Guided Aspiration Biopsy

要約

超音波誘導性細い針吸引(FNA)生検は、一般的な低侵襲診断手順です。
ただし、急速な往復運動に対処する吸引針トラッカーはまだ欠落しています。
マンバベースのレジスタメカニズムを備えた吸引針トラッカーであるMrTrackが提案されています。
MrTrackは、MAMBAベースのレジスタ抽出器を活用して、各履歴検索マップからグローバルなコンテキストを連続的に蒸留し、登録銀行にこれらの時間的キューを保存します。
Mambaベースのレジスタレトリバーは、登録銀行から一時的なプロンプトを取得して、急速な往復運動とイメージングの劣化により現在の視力機能が一時的に使用できない場合に外部キューを提供します。
自己監督の登録登録簿は、学習されたレジスタ内の機能の多様性と次元の独立性を促進するために、機能の多様性と次元の独立性を促進するために提案されています。
電動吸引データセットと手動吸引データセットの両方で実施さ​​れた包括的な実験は、MrTrackが正確さと堅牢性の最先端のトラッカーよりも優れているだけでなく、優れた推論効率を達成することを示しています。

要約(オリジナル)

Ultrasound-guided fine needle aspiration (FNA) biopsy is a common minimally invasive diagnostic procedure. However, an aspiration needle tracker addressing rapid reciprocating motion is still missing. MrTrack, an aspiration needle tracker with a mamba-based register mechanism, is proposed. MrTrack leverages a Mamba-based register extractor to sequentially distill global context from each historical search map, storing these temporal cues in a register bank. The Mamba-based register retriever then retrieves temporal prompts from the register bank to provide external cues when current vision features are temporarily unusable due to rapid reciprocating motion and imaging degradation. A self-supervised register diversify loss is proposed to encourage feature diversity and dimension independence within the learned register, mitigating feature collapse. Comprehensive experiments conducted on both motorized and manual aspiration datasets demonstrate that MrTrack not only outperforms state-of-the-art trackers in accuracy and robustness but also achieves superior inference efficiency.

arxiv情報

著者 Yuelin Zhang,Qingpeng Ding,Long Lei,Yongxuan Feng,Raymond Shing-Yan Tang,Shing Shin Cheng
発行日 2025-05-14 15:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MrTrack: Register Mamba for Needle Tracking with Rapid Reciprocating Motion during Ultrasound-Guided Aspiration Biopsy はコメントを受け付けていません