LuSeg: Efficient Negative and Positive Obstacles Segmentation via Contrast-Driven Multi-Modal Feature Fusion on the Lunar

要約

月の探査ミッションがますます複雑になるにつれて、安全で自律的なローバーベースの表面探査を確保することが、月の探査タスクの重要な課題の1つになりました。
この作業では、正と負の障害を含む月面障害セグメンテーションのRGB-Dデータを提供するLunar Exploration Simulator System(Less)とLunarsegデータセットと呼ばれる月面シミュレーションシステムを開発しました。
さらに、Lusegと呼ばれる新しい2段階セグメンテーションネットワークを提案します。
対照学習を通じて、ステージIのRGBエンコーダーとステージIIからの深さエンコーダーとの間のセマンティックな一貫性が強化されます。
提案されているLunarsegデータセットと追加の公開現実世界のNPO道路障害データセットの実験結果は、Lusegが約57 \、Hzの高い推論速度を維持しながら、正と負の両方の障害物の最先端のセグメンテーションパフォーマンスを達成することを示しています。
Less System、Lunarseg Dataset、およびLusegのコードの実装:https://github.com/nubot-nudt/lusegをリリースしました。

要約(オリジナル)

As lunar exploration missions grow increasingly complex, ensuring safe and autonomous rover-based surface exploration has become one of the key challenges in lunar exploration tasks. In this work, we have developed a lunar surface simulation system called the Lunar Exploration Simulator System (LESS) and the LunarSeg dataset, which provides RGB-D data for lunar obstacle segmentation that includes both positive and negative obstacles. Additionally, we propose a novel two-stage segmentation network called LuSeg. Through contrastive learning, it enforces semantic consistency between the RGB encoder from Stage I and the depth encoder from Stage II. Experimental results on our proposed LunarSeg dataset and additional public real-world NPO road obstacle dataset demonstrate that LuSeg achieves state-of-the-art segmentation performance for both positive and negative obstacles while maintaining a high inference speed of approximately 57\,Hz. We have released the implementation of our LESS system, LunarSeg dataset, and the code of LuSeg at:https://github.com/nubot-nudt/LuSeg.

arxiv情報

著者 Shuaifeng Jiao,Zhiwen Zeng,Zhuoqun Su,Xieyuanli Chen,Zongtan Zhou,Huimin Lu
発行日 2025-03-14 13:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LuSeg: Efficient Negative and Positive Obstacles Segmentation via Contrast-Driven Multi-Modal Feature Fusion on the Lunar はコメントを受け付けていません

MTV-Inpaint: Multi-Task Long Video Inpainting

要約

ビデオの開始には、ビデオ内のローカル領域を変更し、空間的および時間的な一貫性を確保することが含まれます。
ほとんどの既存の方法は、主にシーンの完成(つまり、欠落している領域を埋める)に焦点を当てており、制御可能な方法で新しいオブジェクトをシーンに挿入する機能がありません。
幸いなことに、テキストからビデオへの最近の進歩(T2V)拡散モデルは、テキスト誘導ビデオの開始の道を開いています。
ただし、統合のためのT2Vモデルを直接適合させると、完了と挿入タスクの統一が制限され、入力制御可能性がなく、長いビデオとの闘いがあり、それにより適用可能性と柔軟性が制限されます。
これらの課題に対処するために、従来のシーンの完了と新しいオブジェクト挿入タスクの両方を処理できる統一されたマルチタスクビデオの開始フレームワークであるMTV-Inpaintを提案します。
これらの異なるタスクを統合するために、T2V拡散U-NETにデュアルブランチ空間的注意メカニズムを設計し、シーンの完成とオブジェクト挿入のシームレスな統合を単一のフレームワーク内に可能にします。
テキストガイダンスに加えて、MTV-Inpaintは、提案された画像からビデオからビデオへのインペインティングモードを介してモデルを入力するさまざまな画像を統合することにより、マルチモーダル制御をサポートします。
さらに、キーフレームの入力とその間のフレーム伝播を組み合わせた2段階のパイプラインを提案し、MTVインパインが数百のフレームで長いビデオを効果的に処理できるようにします。
広範な実験は、MTV-Inpaintがシーンの完了とオブジェクト挿入タスクの両方で最先端のパフォーマンスを達成することを示しています。
さらに、マルチモーダルのインペインティング、オブジェクトの編集、削除、画像オブジェクトブラシ、長いビデオを処理する機能などの派生アプリケーションの汎用性を示しています。
プロジェクトページ:https://mtv-inpaint.github.io/。

要約(オリジナル)

Video inpainting involves modifying local regions within a video, ensuring spatial and temporal consistency. Most existing methods focus primarily on scene completion (i.e., filling missing regions) and lack the capability to insert new objects into a scene in a controllable manner. Fortunately, recent advancements in text-to-video (T2V) diffusion models pave the way for text-guided video inpainting. However, directly adapting T2V models for inpainting remains limited in unifying completion and insertion tasks, lacks input controllability, and struggles with long videos, thereby restricting their applicability and flexibility. To address these challenges, we propose MTV-Inpaint, a unified multi-task video inpainting framework capable of handling both traditional scene completion and novel object insertion tasks. To unify these distinct tasks, we design a dual-branch spatial attention mechanism in the T2V diffusion U-Net, enabling seamless integration of scene completion and object insertion within a single framework. In addition to textual guidance, MTV-Inpaint supports multimodal control by integrating various image inpainting models through our proposed image-to-video (I2V) inpainting mode. Additionally, we propose a two-stage pipeline that combines keyframe inpainting with in-between frame propagation, enabling MTV-Inpaint to effectively handle long videos with hundreds of frames. Extensive experiments demonstrate that MTV-Inpaint achieves state-of-the-art performance in both scene completion and object insertion tasks. Furthermore, it demonstrates versatility in derived applications such as multi-modal inpainting, object editing, removal, image object brush, and the ability to handle long videos. Project page: https://mtv-inpaint.github.io/.

arxiv情報

著者 Shiyuan Yang,Zheng Gu,Liang Hou,Xin Tao,Pengfei Wan,Xiaodong Chen,Jing Liao
発行日 2025-03-14 13:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MTV-Inpaint: Multi-Task Long Video Inpainting はコメントを受け付けていません

Category Prompt Mamba Network for Nuclei Segmentation and Classification

要約

核のセグメンテーションと分類は、腫瘍免疫微小環境分析に不可欠な基盤を提供します。
以前の核のセグメンテーションおよび分類モデルでは、トレーニングのために大きな画像を小さなパッチに分割する必要があり、2つの重要な問題につながります。
第一に、隣接するパッチの境界での核は、しばしば推論中に誤って整合します。
第二に、このパッチベースのアプローチにより、モデルのトレーニングと推論時間が大幅に増加します。
最近、Mambaは、直線的な時間の複雑さと低いメモリ消費を備えた大規模な画像をモデル化する能力について注目を集めています。
これは、フルサイズの画像で核のセグメンテーションと分類モデルをトレーニングするための有望なソリューションを提供します。
ただし、MAMBAオリエンテーションベースのスキャン方法には、カテゴリ固有の特徴がないため、不均衡なクラス分布を備えたシナリオの最適なパフォーマンスが発生します。
これらの課題に対処するために、このペーパーでは、カテゴリの確率ソートに基づいた新しいスキャン戦略を紹介します。これは、高から低いまでの信頼に応じて、各カテゴリの機能を独立してランク付けおよびスキャンします。
このアプローチは、不確実なサンプルの特徴表現を強化し、不均衡な分布によって引き起こされる問題を軽減します。
4つのパブリックデータセットで実施された広範な実験は、この方法が最先端のアプローチを上回り、核のセグメンテーションと分類タスクで優れたパフォーマンスを提供することを示しています。

要約(オリジナル)

Nuclei segmentation and classification provide an essential basis for tumor immune microenvironment analysis. The previous nuclei segmentation and classification models require splitting large images into smaller patches for training, leading to two significant issues. First, nuclei at the borders of adjacent patches often misalign during inference. Second, this patch-based approach significantly increases the model’s training and inference time. Recently, Mamba has garnered attention for its ability to model large-scale images with linear time complexity and low memory consumption. It offers a promising solution for training nuclei segmentation and classification models on full-sized images. However, the Mamba orientation-based scanning method lacks account for category-specific features, resulting in sub-optimal performance in scenarios with imbalanced class distributions. To address these challenges, this paper introduces a novel scanning strategy based on category probability sorting, which independently ranks and scans features for each category according to confidence from high to low. This approach enhances the feature representation of uncertain samples and mitigates the issues caused by imbalanced distributions. Extensive experiments conducted on four public datasets demonstrate that our method outperforms state-of-the-art approaches, delivering superior performance in nuclei segmentation and classification tasks.

arxiv情報

著者 Ye Zhang,Zijie Fang,Yifeng Wang,Lingbo Zhang,Xianchao Guan,Yongbing Zhang
発行日 2025-03-14 13:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Category Prompt Mamba Network for Nuclei Segmentation and Classification はコメントを受け付けていません

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

要約

長型のビデオ理解は、ビデオデータの冗長性が高いことと、クエリと関係のある情報の豊富さによって複雑になります。
これらの課題に取り組むために、LLM推論のクエリ適応的で階層的なビデオ表現を長期にわたって推論するためのクエリに適合した階層的なビデオ表現を構築するトレーニングフリーのフレームワークであるVideoTreeを提案します。
第一に、VideoTreeは、クエリとの関連性に基づいてキーフレームの選択を徐々に改良して、反復プロセスを通じて入力ビデオからクエリ関連情報を抽出します。
さらに、VideoTreeは、長いビデオデータの固有の階層構造を活用します。これは、既存のLLMベースの方法で見落とされることがよくあります。
具体的には、多粒度情報をツリーベースの表現に組み込み、VideoTreeが粗から洗練された方法で長いビデオからクエリ関連の詳細を抽出できるようにします。
これにより、モデルはさまざまなレベルの詳細を備えた幅広いビデオクエリを効果的に処理できます。
最後に、VideoTreeはツリー構造内の階層クエリ関連情報を集約し、クエリに答えるためにLLM推論モデルに送ります。
私たちの実験は、私たちの方法が推論の精度と効率の両方を改善することを示しています。
具体的には、VideoTreeは、既存のトレーニングのないアプローチを、推論時間を短縮し、ビデオ固有のトレーニングを追加せずにテストセットで61.1%と75.6%の精度を達成します。
さらに、Video-MMEの長い分割(平均44分)では、VideoTreeはGPT-4Vやビデオデータで広く訓練された他の多くのMLLMよりも優れたパフォーマンスを実現します。

要約(オリジナル)

Long-form video understanding is complicated by the high redundancy of video data and the abundance of query-irrelevant information. To tackle these challenges, we propose VideoTree, a training-free framework which builds a query-adaptive and hierarchical video representation for LLM reasoning over long-form videos. First, VideoTree extracts query-relevant information from the input video through an iterative process, progressively refining the selection of keyframes based on their relevance to the query. Furthermore, VideoTree leverages the inherent hierarchical structure of long video data, which is often overlooked by existing LLM-based methods. Specifically, we incorporate multi-granularity information into a tree-based representation, allowing VideoTree to extract query-relevant details from long videos in a coarse-to-fine manner. This enables the model to effectively handle a wide range of video queries with varying levels of detail. Finally, VideoTree aggregates the hierarchical query-relevant information within the tree structure and feeds it into an LLM reasoning model to answer the query. Our experiments show that our method improves both reasoning accuracy and efficiency. Specifically, VideoTree outperforms existing training-free approaches on EgoSchema and NExT-QA with less inference time, achieving 61.1% and 75.6% accuracy on the test set without additional video-specific training. Moreover, on the long split of Video-MME (average 44 minutes), VideoTree achieves better performance than GPT-4V and many other MLLMs that were extensively trained on video data.

arxiv情報

著者 Ziyang Wang,Shoubin Yu,Elias Stengel-Eskin,Jaehong Yoon,Feng Cheng,Gedas Bertasius,Mohit Bansal
発行日 2025-03-14 13:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos はコメントを受け付けていません

AQUA-SLAM: Tightly-Coupled Underwater Acoustic-Visual-Inertial SLAM with Sensor Calibration

要約

水中環境は、視認性が限られていること、不十分な照明、および画像の構造的特徴の散発的な喪失により、視覚的な同時ローカリゼーションとマッピング(SLAM)システムに大きな課題をもたらします。
これらの課題に対処するこのペーパーでは、グラフ最適化フレームワーク内のドップラー速度ログ(DVL)、ステレオカメラ、および慣性測定単位(IMU)を融合させるために、アクアスラムと呼ばれる、斬新な、密接に結びついた音響視覚介入スラムアプローチを紹介します。
さらに、リアルタイムのオンライン実行のための高速線形近似手順で、マルチセンサー外因性キャリブレーション(DVL、カメラ、IMUの間)およびDVLトランスデューサーの不整合キャリブレーションを含む効率的なセンサーキャリブレーション手法を提案します。
提案された方法は、グラウンドトゥルースのあるタンク環境で広範囲に評価され、北海のオフショア用途向けに検証されています。
結果は、私たちの方法が、ローカリゼーションの精度と堅牢性の観点から、現在の最先端の水中および視覚慣性スラムシステムを上回っていることを示しています。
提案されたシステムは、コミュニティのためにオープンソースになります。

要約(オリジナル)

Underwater environments pose significant challenges for visual Simultaneous Localization and Mapping (SLAM) systems due to limited visibility, inadequate illumination, and sporadic loss of structural features in images. Addressing these challenges, this paper introduces a novel, tightly-coupled Acoustic-Visual-Inertial SLAM approach, termed AQUA-SLAM, to fuse a Doppler Velocity Log (DVL), a stereo camera, and an Inertial Measurement Unit (IMU) within a graph optimization framework. Moreover, we propose an efficient sensor calibration technique, encompassing multi-sensor extrinsic calibration (among the DVL, camera and IMU) and DVL transducer misalignment calibration, with a fast linear approximation procedure for real-time online execution. The proposed methods are extensively evaluated in a tank environment with ground truth, and validated for offshore applications in the North Sea. The results demonstrate that our method surpasses current state-of-the-art underwater and visual-inertial SLAM systems in terms of localization accuracy and robustness. The proposed system will be made open-source for the community.

arxiv情報

著者 Shida Xu,Kaicheng Zhang,Sen Wang
発行日 2025-03-14 14:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | AQUA-SLAM: Tightly-Coupled Underwater Acoustic-Visual-Inertial SLAM with Sensor Calibration はコメントを受け付けていません

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

要約

タスク指向のハンドオブジェクトインタラクションビデオ生成の既存のデータセットとモデルの重要な制限に対処します。これは、ロボット模倣学習のためのビデオデモンストレーションを生成する重要なアプローチです。
EGO4Dなどの現在のデータセットは、しばしば一貫性のない視点の視点と相互作用の不一致に悩まされ、ビデオの品質の低下につながり、正確な模倣学習タスクの適用性を制限します。
この目的に向けて、100,856の自我中心のハンドオブジェクトインタラクションビデオの先駆的な大規模なデータセットであるTaste-Robを紹介します。
各ビデオは、言語の指示に細心の注意を払って整合し、一貫したカメラの視点から記録され、相互作用の明確さを確保します。
テイストロブに関するビデオ拡散モデル(VDM)を微調整することにより、現実的なオブジェクトの相互作用を実現しますが、手の把握姿勢で時折矛盾が観察されました。
リアリズムを強化するために、生成されたビデオの手姿勢の精度を向上させる3段階のポーズ補給パイプラインを導入します。
専門化されたポーズ修正フレームワークと組み合わせたキュレーションされたデータセットは、高品質でタスク指向のハンドオブジェクトインタラクションビデオを生成し、優れた一般化可能なロボット操作を実現する際の顕著なパフォーマンスの向上を提供します。
Taste-Robデータセットは、現場でのさらなる進歩を促進するために、公開時に公開されます。

要約(オリジナル)

We address key limitations in existing datasets and models for task-oriented hand-object interaction video generation, a critical approach of generating video demonstrations for robotic imitation learning. Current datasets, such as Ego4D, often suffer from inconsistent view perspectives and misaligned interactions, leading to reduced video quality and limiting their applicability for precise imitation learning tasks. Towards this end, we introduce TASTE-Rob — a pioneering large-scale dataset of 100,856 ego-centric hand-object interaction videos. Each video is meticulously aligned with language instructions and recorded from a consistent camera viewpoint to ensure interaction clarity. By fine-tuning a Video Diffusion Model (VDM) on TASTE-Rob, we achieve realistic object interactions, though we observed occasional inconsistencies in hand grasping postures. To enhance realism, we introduce a three-stage pose-refinement pipeline that improves hand posture accuracy in generated videos. Our curated dataset, coupled with the specialized pose-refinement framework, provides notable performance gains in generating high-quality, task-oriented hand-object interaction videos, resulting in achieving superior generalizable robotic manipulation. The TASTE-Rob dataset will be made publicly available upon publication to foster further advancements in the field.

arxiv情報

著者 Hongxiang Zhao,Xingchen Liu,Mutian Xu,Yiming Hao,Weikai Chen,Xiaoguang Han
発行日 2025-03-14 14:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation はコメントを受け付けていません

Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method

要約

弱く監視されている暴力検出とは、ビデオレベルのラベルのみを使用してビデオの暴力セグメントを特定するためのトレーニングモデルのテクニックを指します。
これらのアプローチの中で、オーディオや光学フローなどのモダリティを統合するマルチモーダル暴力検出は、大きな可能性を秘めています。
このドメインの既存の方法は、主にモダリティの不一致に対処するためのマルチモーダル融合モデルの設計に焦点を当てています。
対照的に、別のアプローチを取っています。
暴力イベントの表現におけるモダリティ全体の固有の矛盾を活用して、新しいマルチモーダルセマンティック機能アライメント方法を提案します。
この方法は、ローカル、過渡的、およびそれほど有益でないモダリティ(オーディオや光学フローなど)のセマンティック機能を、より有益なRGBセマンティック機能空間にまばらにマッピングします。
反復プロセスを通じて、この方法は、適切なゼロ機能を一致させるサブスペースを識別し、この部分空間に基づいてモダリティ固有のイベント表現を整列させ、その後のモダリティ融合段階でのすべてのモダリティからの情報を完全に活用できるようにします。
これに基づいて、私たちは、単峰性のセマンティック機能、マルチモーダルアライメント、マルチモーダル融合、および最終検出を抽出するための単象徴的な複数インスタンス学習で構成される、新しい弱く監視された暴力検出フレームワークを設計します。
ベンチマークデータセットの実験結果は、我々の方法の有効性を示しており、XD暴力データセットで86.07%の平均精度(AP)を達成しています。
私たちのコードは、https://github.com/xjpp2016/mavdで入手できます。

要約(オリジナル)

Weakly supervised violence detection refers to the technique of training models to identify violent segments in videos using only video-level labels. Among these approaches, multimodal violence detection, which integrates modalities such as audio and optical flow, holds great potential. Existing methods in this domain primarily focus on designing multimodal fusion models to address modality discrepancies. In contrast, we take a different approach; leveraging the inherent discrepancies across modalities in violence event representation to propose a novel multimodal semantic feature alignment method. This method sparsely maps the semantic features of local, transient, and less informative modalities ( such as audio and optical flow ) into the more informative RGB semantic feature space. Through an iterative process, the method identifies the suitable no-zero feature matching subspace and aligns the modality-specific event representations based on this subspace, enabling the full exploitation of information from all modalities during the subsequent modality fusion stage. Building on this, we design a new weakly supervised violence detection framework that consists of unimodal multiple-instance learning for extracting unimodal semantic features, multimodal alignment, multimodal fusion, and final detection. Experimental results on benchmark datasets demonstrate the effectiveness of our method, achieving an average precision (AP) of 86.07% on the XD-Violence dataset. Our code is available at https://github.com/xjpp2016/MAVD.

arxiv情報

著者 Wenping Jin,Li Zhu,Jing Sun
発行日 2025-03-14 14:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method はコメントを受け付けていません

COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation

要約

細胞インスタンスセグメンテーション(CIS)は、組織病理学的画像の個々の細胞形態を特定するために重要であり、生物学的および医学的研究の貴重な洞察を提供します。
監視されていないCIS(UCIS)モデルは、労働集約型の画像注釈への依存度を低下させることを目的としていますが、セルの境界を正確にキャプチャすることができず、検出を見逃し、パフォーマンスの低下を引き起こします。
エラーのないインスタンスが存在しないことを重要な制限として認識して、コイン(信頼性スコアガイド付きインスタンス蒸留)、3つの重要なステップを備えた新しい注釈なしフレームワークを提示します。
洗練されたマスクと非常に自信のあるインスタンスを特定し、グラウンドトゥルースアノテーションに代わるものを提供し、(3)再帰的な自己抵抗との自信の漸進的な拡大を提供します。
6つのデータセットにわたる広範な実験では、既存のUCISメソッドを上回るコインが示されており、MonusegおよびTNBCデータセットのすべてのメトリックにわたって半監視されたアプローチを上回っています。
このコードは、https://github.com/shjo-april/coinで入手できます。

要約(オリジナル)

Cell instance segmentation (CIS) is crucial for identifying individual cell morphologies in histopathological images, providing valuable insights for biological and medical research. While unsupervised CIS (UCIS) models aim to reduce the heavy reliance on labor-intensive image annotations, they fail to accurately capture cell boundaries, causing missed detections and poor performance. Recognizing the absence of error-free instances as a key limitation, we present COIN (COnfidence score-guided INstance distillation), a novel annotation-free framework with three key steps: (1) Increasing the sensitivity for the presence of error-free instances via unsupervised semantic segmentation with optimal transport, leveraging its ability to discriminate spatially minor instances, (2) Instance-level confidence scoring to measure the consistency between model prediction and refined mask and identify highly confident instances, offering an alternative to ground truth annotations, and (3) Progressive expansion of confidence with recursive self-distillation. Extensive experiments across six datasets show COIN outperforming existing UCIS methods, even surpassing semi- and weakly-supervised approaches across all metrics on the MoNuSeg and TNBC datasets. The code is available at https://github.com/shjo-april/COIN.

arxiv情報

著者 Sanghyun Jo,Seo Jin Lee,Seungwoo Lee,Seohyung Hong,Hyungseok Seo,Kyungsu Kim
発行日 2025-03-14 14:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation はコメントを受け付けていません

Multi-modal Vision Pre-training for Medical Image Analysis

要約

自己学習学習は、実際のアプリケーションのトレーニングデータ要件を抑制することにより、医療画像分析を大幅に促進しました。
現在のパラダイムは、ユニモーダル画像データ内の自己監視に主に依存しており、それにより、クロスモーダル画像表現の効果的な学習に不可欠なモーダル間相関を無視します。
この制限は、同じ研究でさまざまな機能イメージングプロトコルを受けている患者のマルチパラメトリックMRIスキャンなど、自然にグループ化されたマルチモーダルデータにとって特に重要です。
このギャップを埋めるために、3つのプロキシタスクでトレーニング前の新しいマルチモーダルイメージを実施して、マルチモーダル脳MRIスキャン(3,755人の患者の16,022スキャンで240万枚以上の画像)、つまり、モダル画像の再構築、モダリティの密着症の蒸留距離蒸留、モダルアウェアアウェアイメージの再構築、240万件以上の画像(3,755人の患者の16,022スキャン)を使用して、相互モダリティ表現と相関の学習を促進します。
事前に訓練されたモデルの一般化可能性を実証するために、10のダウンストリームタスクを備えたさまざまなベンチマークで広範な実験を実施します。
私たちの方法の優れたパフォーマンスは、最先端のトレーニング前の方法と比較して報告され、6つのセグメンテーションベンチマークで0.28 \% – 14.47 \%のDICEスコアの改善があり、4つの個別画像分類タスクで0.65 \%-18.07 \%の一貫した精度ブーストが報告されています。

要約(オリジナル)

Self-supervised learning has greatly facilitated medical image analysis by suppressing the training data requirement for real-world applications. Current paradigms predominantly rely on self-supervision within uni-modal image data, thereby neglecting the inter-modal correlations essential for effective learning of cross-modal image representations. This limitation is particularly significant for naturally grouped multi-modal data, e.g., multi-parametric MRI scans for a patient undergoing various functional imaging protocols in the same study. To bridge this gap, we conduct a novel multi-modal image pre-training with three proxy tasks to facilitate the learning of cross-modality representations and correlations using multi-modal brain MRI scans (over 2.4 million images in 16,022 scans of 3,755 patients), i.e., cross-modal image reconstruction, modality-aware contrastive learning, and modality template distillation. To demonstrate the generalizability of our pre-trained model, we conduct extensive experiments on various benchmarks with ten downstream tasks. The superior performance of our method is reported in comparison to state-of-the-art pre-training methods, with Dice Score improvement of 0.28\%-14.47\% across six segmentation benchmarks and a consistent accuracy boost of 0.65\%-18.07\% in four individual image classification tasks.

arxiv情報

著者 Shaohao Rui,Lingzhi Chen,Zhenyu Tang,Lilong Wang,Mianxin Liu,Shaoting Zhang,Xiaosong Wang
発行日 2025-03-14 14:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Multi-modal Vision Pre-training for Medical Image Analysis はコメントを受け付けていません

Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios

要約

生理学的活動は、顔のイメージングの敏感な変化によって明らかになる可能性があります。
それらは私たちの目にはほとんど観察できませんが、コンピュータービジョンマナーはでき、派生したリモートフォトプレチスモグラフィ(RPPG)はかなりの約束を示しています。
ただし、既存の研究は主に空間的な皮膚認識と時間的リズミカルな相互作用に依存しているため、理想的な光条件下で明示的な特徴を特定することに焦点を当てていますが、複雑な障害と極端な照明曝露を備えたワイルドではあまり機能しません。
この論文では、RPPGのエンドツーエンドのビデオトランスモデルを提案します。
微妙なバイオシグナル振幅を占有するのに十分であるか、ネットワークトレーニングを妨げる定期的な摂動として存在するかどうかにかかわらず、複雑で未知の外部の時変干渉を排除するよう努めています。
特定の実装では、グローバルな干渉共有、科目の背景参照、および自己監視された干渉の解体を利用して干渉を排除し、空間的フィルタリング、再構築ガイダンス、および頻度ドメインと生物学的事前制約に基づいて、効果的なRPPGを達成するための頻度のドメインと生物学的な領域を利用します。
私たちの知る限り、これは自然な顔ビデオに基づいた実際の屋外シナリオの最初の堅牢なRPPGモデルであり、展開するのは軽量です。
広範な実験は、データセットとシーン全体のRPPG予測におけるモデルの競争力とパフォーマンスを示しています。

要約(オリジナル)

Physiological activities can be manifested by the sensitive changes in facial imaging. While they are barely observable to our eyes, computer vision manners can, and the derived remote photoplethysmography (rPPG) has shown considerable promise. However, existing studies mainly rely on spatial skin recognition and temporal rhythmic interactions, so they focus on identifying explicit features under ideal light conditions, but perform poorly in-the-wild with intricate obstacles and extreme illumination exposure. In this paper, we propose an end-to-end video transformer model for rPPG. It strives to eliminate complex and unknown external time-varying interferences, whether they are sufficient to occupy subtle biosignal amplitudes or exist as periodic perturbations that hinder network training. In the specific implementation, we utilize global interference sharing, subject background reference, and self-supervised disentanglement to eliminate interference, and further guide learning based on spatiotemporal filtering, reconstruction guidance, and frequency domain and biological prior constraints to achieve effective rPPG. To the best of our knowledge, this is the first robust rPPG model for real outdoor scenarios based on natural face videos, and is lightweight to deploy. Extensive experiments show the competitiveness and performance of our model in rPPG prediction across datasets and scenes.

arxiv情報

著者 Hang Shao,Lei Luo,Jianjun Qian,Mengkai Yan,Shuo Chen,Jian Yang
発行日 2025-03-14 14:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios はコメントを受け付けていません