Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation

要約

自己教師の学習(SSL)は、自然な画像とビデオ理解の大きな進歩を達成していますが、微妙な解剖学的構造、複雑な時間的ダイナミクス、およびドメイン固有の前訓練モデルの現在の欠如により、心エコー検査(心超音波)のようなドメインに課題が残っています。
コントラスト、マスクモデリング、クラスタリングベースの方法などの既存のSSLアプローチは、高いインターサンプルの類似性、超音波で一般的な低PSNR入力に対する感度、または臨床的に関連する特徴を歪める攻撃的な増強と闘っています。
心臓超音波ビデオ表現学習のための自己監視されたデュアルブランチフレームワークであるDiscoVR(クロスモーダルビデオ表現の蒸留画像監督)を提示します。
DISCOVRは、時間的ダイナミクスをモデル化するクラスタリングベースのビデオエンコーダと、きちんとした空間セマンティクスを抽出するオンライン画像エンコーダを組み合わせます。
これらのブランチは、進化する画像エンコーダーからビデオエンコーダーに解剖学的知識を転送するセマンティッククラスター蒸留損失を介して接続され、微調整されたセマンティック理解で濃縮された一時的にコヒーレントな表現を可能にします。
胎児、小児、および成人の個体群にまたがる6つの心エコー検査データセットで評価されたDiscovrは、特殊なビデオ異常検出方法と、最先端のビデオSSLベースラインの両方でゼロショットおよび線形プロービングセットアップの両方を上回り、優れたセグメンテーション移動を達成します。

要約(オリジナル)

Self-supervised learning (SSL) has achieved major advances in natural images and video understanding, but challenges remain in domains like echocardiography (heart ultrasound) due to subtle anatomical structures, complex temporal dynamics, and the current lack of domain-specific pre-trained models. Existing SSL approaches such as contrastive, masked modeling, and clustering-based methods struggle with high intersample similarity, sensitivity to low PSNR inputs common in ultrasound, or aggressive augmentations that distort clinically relevant features. We present DISCOVR (Distilled Image Supervision for Cross Modal Video Representation), a self-supervised dual branch framework for cardiac ultrasound video representation learning. DISCOVR combines a clustering-based video encoder that models temporal dynamics with an online image encoder that extracts fine-grained spatial semantics. These branches are connected through a semantic cluster distillation loss that transfers anatomical knowledge from the evolving image encoder to the video encoder, enabling temporally coherent representations enriched with fine-grained semantic understanding. Evaluated on six echocardiography datasets spanning fetal, pediatric, and adult populations, DISCOVR outperforms both specialized video anomaly detection methods and state-of-the-art video-SSL baselines in zero-shot and linear probing setups, and achieves superior segmentation transfer.

arxiv情報

著者 Divyanshu Mishra,Mohammadreza Salehi,Pramit Saha,Olga Patey,Aris T. Papageorghiou,Yuki M. Asano,J. Alison Noble
発行日 2025-06-13 13:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation はコメントを受け付けていません

Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques

要約

人間の活動認識(HAR)は、実際のデータ収集のコストと複雑さが高いため、ラベル付きのデータセットの希少性によって制限されることがよくあります。
これを緩和するために、最近の研究では、クロスモダリティ転送を介して仮想慣性測定ユニット(IMU)データの生成が調査されています。
ビデオベースと言語ベースのパイプラインはそれぞれ約束を示していますが、仮定と計算コストが異なります。
さらに、従来のセンサーレベルのデータ増強に関連する有効性は不明のままです。
この論文では、古典的なデータ増強技術に対するこれら2つの仮想IMU生成アプローチの直接的な比較を示します。
Kinetics-400から100の多様なアクティビティにまたがる大規模な仮想IMUデータセットを構築し、22のボディロケーションでセンサー信号をシミュレートします。
3つのデータ生成戦略は、4つの一般的なモデルを使用して、ベンチマークHARデータセット(UTD-MHAD、PAMAP2、HAD-AW)で評価されます。
結果は、仮想IMUデータが、特に限られたデータ条件下で、実際のデータまたは拡張データのみでパフォーマンスを大幅に改善することを示しています。
データ生成戦略の選択に関する実用的なガイダンスを提供し、各アプローチの明確な利点と短所を強調します。

要約(オリジナル)

Human activity recognition (HAR) is often limited by the scarcity of labeled datasets due to the high cost and complexity of real-world data collection. To mitigate this, recent work has explored generating virtual inertial measurement unit (IMU) data via cross-modality transfer. While video-based and language-based pipelines have each shown promise, they differ in assumptions and computational cost. Moreover, their effectiveness relative to traditional sensor-level data augmentation remains unclear. In this paper, we present a direct comparison between these two virtual IMU generation approaches against classical data augmentation techniques. We construct a large-scale virtual IMU dataset spanning 100 diverse activities from Kinetics-400 and simulate sensor signals at 22 body locations. The three data generation strategies are evaluated on benchmark HAR datasets (UTD-MHAD, PAMAP2, HAD-AW) using four popular models. Results show that virtual IMU data significantly improves performance over real or augmented data alone, particularly under limited-data conditions. We offer practical guidance on choosing data generation strategies and highlight the distinct advantages and disadvantages of each approach.

arxiv情報

著者 Zikang Leng,Archith Iyer,Thomas Plötz
発行日 2025-06-13 13:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques はコメントを受け付けていません

GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers

要約

ビジョントランス(VIT)はコンピュータービジョンに不可欠ですが、計算的に集中的です。
モデルの量子化は、特に4ビットのようなビット幅の低い幅では、この困難を緩和することを目的としていますが、既存のトレーニング量子化(PTQ)および量子化対応トレーニング(QAT)メソッドは大きな制限を示します。
PTQは多くの場合、かなりの精度低下を負いますが、QATは高精度を達成しますが、法的な計算コスト、下流のタスクへの一般化の制限、トレーニングの不安定性、およびオープンソースコードベースの欠如に苦しんでいます。
これらの課題に対処するために、このペーパーでは、効率的かつ効果的なVIT量子化のために設計された新しいフレームワークである一般的、実用的、稲妻量子化(GPLQ)を紹介します。
GPLQは、2つの重要な経験的洞察に基づいています。活性化量子化の最重要重要性と、一般化を維持するためのモデルの元の最適化「盆地」を維持する必要性です。
したがって、GPLQは、連続した「アクティベーションファースト、ウェイトレーター」戦略を採用しています。
ステージ1はFP32に重みを維持しながら、同じ「盆地」にとどまるために1エポックのみで損失を模倣する機能で活性化を量子化し、それによって一般化を維持します。
ステージ2は、PTQメソッドを使用して重みを定量化します。
その結果、GPLQは既存のQATメソッドよりも100倍高速であり、メモリフットプリントをFP32トレーニング以下でもレベルに引き下げ、イメージネットの精度と、微細に溶解した視覚分類とオブジェクト検出を含む多様なダウンストリームタスクの両方の点でFP32モデルと非常に競争力のある4ビットモデルパフォーマンスを達成します。
複数のビジョンタスクをサポートする使いやすいオープンソースツールキットをリリースします。

要約(オリジナル)

Vision Transformers (ViTs) are essential in computer vision but are computationally intensive, too. Model quantization, particularly to low bit-widths like 4-bit, aims to alleviate this difficulty, yet existing Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) methods exhibit significant limitations. PTQ often incurs substantial accuracy drop, while QAT achieves high accuracy but suffers from prohibitive computational costs, limited generalization to downstream tasks, training instability, and lacking of open-source codebase. To address these challenges, this paper introduces General, Practical, and Lightning Quantization (GPLQ), a novel framework designed for efficient and effective ViT quantization. GPLQ is founded on two key empirical insights: the paramount importance of activation quantization and the necessity of preserving the model’s original optimization “basin” to maintain generalization. Consequently, GPLQ employs a sequential “activation-first, weights-later” strategy. Stage 1 keeps weights in FP32 while quantizing activations with a feature mimicking loss in only 1 epoch to keep it stay in the same “basin”, thereby preserving generalization. Stage 2 quantizes weights using a PTQ method. As a result, GPLQ is 100x faster than existing QAT methods, lowers memory footprint to levels even below FP32 training, and achieves 4-bit model performance that is highly competitive with FP32 models in terms of both accuracy on ImageNet and generalization to diverse downstream tasks, including fine-grained visual classification and object detection. We will release an easy-to-use open-source toolkit supporting multiple vision tasks.

arxiv情報

著者 Guang Liang,Xinyao Liu,Jianxin Wu
発行日 2025-06-13 13:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers はコメントを受け付けていません

Solving Inverse Problems in Stochastic Self-Organising Systems through Invariant Representations

要約

自己組織化システムは、単純なローカルルールが複雑な確率的パターンを生成する方法を示しています。
多くの自然システムは、このようなダイナミクスに依存しており、自然の複雑さを理解するための自己組織化を中心にしています。
このようなシステムのモデリングにおける根本的な課題は、逆の問題を解決することです。巨視的観察から未知の因果パラメーターを見つけることです。
このタスクは、観測に強い確率的成分がある場合に特に困難になり、多様でありながら同等のパターンを生成します。
この設定では、従来の逆方式が失敗します。ピクセルごとのメトリックは、さまざまな結果間の特徴の類似性をキャプチャできないためです。
この作業では、観察可能な空間で確率性を処理するように特別に設計された新しい逆モデリング方法を導入し、視覚埋め込みの能力を活用して、知覚的な敵意をキャプチャする堅牢な表現を生成します。
パターン表現を不変の埋め込みスペースにマッピングすることにより、手作りの目的関数やヒューリスティックを必要とせずに、未知の因果パラメーターを効果的に回復できます。
2つの標準モデル(反応拡散システムと社会的分離のエージェントベースのモデル)のメソッドを評価し、結果の確率性にもかかわらずパラメーターを確実に回復することを示します。
さらに、この方法を実際の生物学的パターンに適用し、理論家と実験家の両方が複雑な確率的パターン形成の根底にあるダイナミクスを調査するためのツールとしての可能性を強調します。

要約(オリジナル)

Self-organising systems demonstrate how simple local rules can generate complex stochastic patterns. Many natural systems rely on such dynamics, making self-organisation central to understanding natural complexity. A fundamental challenge in modelling such systems is solving the inverse problem: finding the unknown causal parameters from macroscopic observations. This task becomes particularly difficult when observations have a strong stochastic component, yielding diverse yet equivalent patterns. Traditional inverse methods fail in this setting, as pixel-wise metrics cannot capture feature similarities between variable outcomes. In this work, we introduce a novel inverse modelling method specifically designed to handle stochasticity in the observable space, leveraging the capacity of visual embeddings to produce robust representations that capture perceptual invariances. By mapping the pattern representations onto an invariant embedding space, we can effectively recover unknown causal parameters without the need for handcrafted objective functions or heuristics. We evaluate the method on two canonical models–a reaction-diffusion system and an agent-based model of social segregation–and show that it reliably recovers parameters despite stochasticity in the outcomes. We further apply the method to real biological patterns, highlighting its potential as a tool for both theorists and experimentalists to investigate the dynamics underlying complex stochastic pattern formation.

arxiv情報

著者 Elias Najarro,Nicolas Bessone,Sebastian Risi
発行日 2025-06-13 14:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.CV, cs.LG, nlin.AO | Solving Inverse Problems in Stochastic Self-Organising Systems through Invariant Representations はコメントを受け付けていません

Teleoperated Driving: a New Challenge for 3D Object Detection in Compressed Point Clouds

要約

近年、相互接続されたデバイスの開発は、インフォテインメントから教育や産業用途まで、多くの分野で拡大しています。
この傾向は、センサーの数の増加と強力なハードウェアとソフトウェアへのアクセシビリティによって加速されています。
これらの進歩から大幅に恩恵を受ける領域の1つは、テレオ蒸発運転(TD)です。
このシナリオでは、コントローラーは、車両に搭載されたリモートレバレバリのセンサーデータから車両を安全に駆動し、車両からすべてのもの(V2X)通信を介して交換されます。
この作業では、安全なTD操作を可能にするために、ポイントクラウドデータから車と歩行者の存在を検出する問題に取り組みます。
より具体的には、自律運転のためのマルチモーダル、オープンソース、合成データセットであるSelmaデータセットを活用します。これは、オブジェクトの検出をサポートする3Dオブジェクトのグラウンド境界ボックスを含めることで拡張しました。
圧縮効率、(DE)圧縮時間と推論時間、検出精度など、いくつかのメトリックの下で、最先端の圧縮アルゴリズムとオブジェクト検出器のパフォーマンスを分析します。
さらに、TDアプリケーションの3GPP要件に関するデータレートとレイテンシの観点から、V2Xネットワークに対する圧縮と検出の影響を測定します。

要約(オリジナル)

In recent years, the development of interconnected devices has expanded in many fields, from infotainment to education and industrial applications. This trend has been accelerated by the increased number of sensors and accessibility to powerful hardware and software. One area that significantly benefits from these advancements is Teleoperated Driving (TD). In this scenario, a controller drives safely a vehicle from remote leveraging sensors data generated onboard the vehicle, and exchanged via Vehicle-to-Everything (V2X) communications. In this work, we tackle the problem of detecting the presence of cars and pedestrians from point cloud data to enable safe TD operations. More specifically, we exploit the SELMA dataset, a multimodal, open-source, synthetic dataset for autonomous driving, that we expanded by including the ground-truth bounding boxes of 3D objects to support object detection. We analyze the performance of state-of-the-art compression algorithms and object detectors under several metrics, including compression efficiency, (de)compression and inference time, and detection accuracy. Moreover, we measure the impact of compression and detection on the V2X network in terms of data rate and latency with respect to 3GPP requirements for TD applications.

arxiv情報

著者 Filippo Bragato,Michael Neri,Paolo Testolina,Marco Giordani,Federica Battisti
発行日 2025-06-13 14:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NI, eess.IV | Teleoperated Driving: a New Challenge for 3D Object Detection in Compressed Point Clouds はコメントを受け付けていません

HandS3C: 3D Hand Mesh Reconstruction with State Space Spatial Channel Attention from RGB images

要約

1つのRGB画像からハンドメッシュを再構築することは、他のオブジェクトによってしばしば閉塞されるため、挑戦的なタスクです。
以前の作品のほとんどは、より多くの追加情報を探求し、3D再構成パフォーマンスを改善するための注意メカニズムを採用しようとしますが、計算の複雑さを同時に増加させます。
この作業では、高い計算効率を備えたパフォーマンスを回避するアーキテクチャを実現するために、シンプルだが効果的な3Dハンドメッシュ再構成ネットワーク(つまり、Hands3C)を提案します。
ネットワークでは、効果的な受容フィールドを拡張し、空間ディメンションで手の特徴を抽出し、チャネルの寸法で手の地域的特徴を強化する新しい状態空間空間チャネル注意モジュールを設計します。
これにより、完全で詳細なハンドメッシュを再構築するのに役立ちます。
重いオクルージョン(Freihand、Dexycb、Ho3dなど)に面したよく知られているデータセットで実施された広範な実験は、提案されたHands3Cが最小限のパラメーターを維持しながら最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Reconstructing the hand mesh from one single RGB image is a challenging task because hands are often occluded by other objects. Most previous works attempt to explore more additional information and adopt attention mechanisms for improving 3D reconstruction performance, while it would increase computational complexity simultaneously. To achieve a performance-reserving architecture with high computational efficiency, in this work, we propose a simple but effective 3D hand mesh reconstruction network (i.e., HandS3C), which is the first time to incorporate state space model into the task of hand mesh reconstruction. In the network, we design a novel state-space spatial-channel attention module that extends the effective receptive field, extracts hand features in the spatial dimension, and enhances regional features of hands in the channel dimension. This helps to reconstruct a complete and detailed hand mesh. Extensive experiments conducted on well-known datasets facing heavy occlusions (such as FREIHAND, DEXYCB, and HO3D) demonstrate that our proposed HandS3C achieves state-of-the-art performance while maintaining a minimal parameters.

arxiv情報

著者 Zixun Jiao,Xihan Wang,Zhaoqiang Xia,Lianhe Shao,Quanli Gao
発行日 2025-06-13 14:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | HandS3C: 3D Hand Mesh Reconstruction with State Space Spatial Channel Attention from RGB images はコメントを受け付けていません

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation

要約

Vision-Language Translation(VLT)は、画像に組み込まれた多言語テキストを正確に認識し、視覚的なコンテキストをサポートしてターゲット言語に変換する必要がある挑戦的なタスクです。
最近の大きなビジョン言語モデル(LVLMS)は、強力な多言語と視覚的理解能力を実証していますが、VLTでのパフォーマンスの体系的な評価と理解の欠如があります。
この作業では、データ品質、モデルアーキテクチャ、評価メトリックの3つの重要な観点からVLTの包括的な研究を提示します。
(1)既存のデータセット、特にセマンティックおよび文化的忠実度の重大​​な制限を特定し、OCR補正注釈を備えた多言語で並行した人間に検証されたデータセットであるAibtransを導入します。
(2)エンドツーエンドおよびカスケードアーキテクチャにわたって、11の商用LVLMS/LLMSと6つの最先端のオープンソースモデルをベンチマークし、OCRの依存と対照的な発電と推論行動を明らかにします。
(3)さまざまなコンテキストの複雑さの下でメトリック信頼性の問題に対処するための密度認識評価を提案し、DAスコアをより堅牢な翻訳品質の尺度として導入します。
これらの調査結果に基づいて、VLTの新しい評価ベンチマークを確立します。
特に、高リソースの言語ペアで微調整されたLVLMSが横断的なパフォーマンスを低下させることを観察し、一般化能力を犠牲にすることなくLVLMSをVLTに効果的に適応させるバランスのとれた多言語の微調整戦略を提案します。

要約(オリジナル)

Vision-Language Translation (VLT) is a challenging task that requires accurately recognizing multilingual text embedded in images and translating it into the target language with the support of visual context. While recent Large Vision-Language Models (LVLMs) have demonstrated strong multilingual and visual understanding capabilities, there is a lack of systematic evaluation and understanding of their performance on VLT. In this work, we present a comprehensive study of VLT from three key perspectives: data quality, model architecture, and evaluation metrics. (1) We identify critical limitations in existing datasets, particularly in semantic and cultural fidelity, and introduce AibTrans — a multilingual, parallel, human-verified dataset with OCR-corrected annotations. (2) We benchmark 11 commercial LVLMs/LLMs and 6 state-of-the-art open-source models across end-to-end and cascaded architectures, revealing their OCR dependency and contrasting generation versus reasoning behaviors. (3) We propose Density-Aware Evaluation to address metric reliability issues under varying contextual complexity, introducing the DA Score as a more robust measure of translation quality. Building upon these findings, we establish a new evaluation benchmark for VLT. Notably, we observe that fine-tuning LVLMs on high-resource language pairs degrades cross-lingual performance, and we propose a balanced multilingual fine-tuning strategy that effectively adapts LVLMs to VLT without sacrificing their generalization ability.

arxiv情報

著者 Xintong Wang,Jingheng Pan,Yixiao Liu,Xiaohu Zhao,Chenyang Lyu,Minghao Wu,Chris Biemann,Longyue Wang,Linlong Xu,Weihua Luo,Kaifu Zhang
発行日 2025-06-13 14:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation はコメントを受け付けていません

Framework of a multiscale data-driven digital twin of the muscle-skeletal system

要約

筋骨格障害(MSDS)は、世界中の障害の主要な原因であり、パーソナライズされた評価と治療のために高度な診断および治療ツールを必要とします。
MSDSの効果的な管理には、不均一なデータソースの相互作用が含まれ、デジタルツイン(DT)パラダイムを貴重なオプションにします。
このペーパーでは、マルチスケールの生体力学的データを計算モデリングと統合して筋骨格システムの詳細な患者固有の表現を作成する新しいフレームワークである筋骨格デジタルツイン(MS-DT)を紹介します。
モーションキャプチャ、超音波イメージング、筋電図、および医療イメージングを組み合わせることにより、MS-DTにより、脊髄運動学、姿勢、筋肉機能の分析が可能になります。
インタラクティブな視覚化プラットフォームは、臨床医と研究者に、生体力学的パラメーターを探索し、患者固有の変化を追跡するための直感的なインターフェイスを提供します。
結果は、正確な運動学的および動的組織の特徴を抽出する際のMS-DTの有効性を示しており、脊椎の生体力学とリハビリテーションを監視するための包括的なツールを提供します。
このフレームワークは、患者固有の診断と介入計画を改善するための高忠実度のモデリングとリアルタイムの視覚化を提供します。

要約(オリジナル)

Musculoskeletal disorders (MSDs) are a leading cause of disability worldwide, requiring advanced diagnostic and therapeutic tools for personalised assessment and treatment. Effective management of MSDs involves the interaction of heterogeneous data sources, making the Digital Twin (DT) paradigm a valuable option. This paper introduces the Musculoskeletal Digital Twin (MS-DT), a novel framework that integrates multiscale biomechanical data with computational modelling to create a detailed, patient-specific representation of the musculoskeletal system. By combining motion capture, ultrasound imaging, electromyography, and medical imaging, the MS-DT enables the analysis of spinal kinematics, posture, and muscle function. An interactive visualisation platform provides clinicians and researchers with an intuitive interface for exploring biomechanical parameters and tracking patient-specific changes. Results demonstrate the effectiveness of MS-DT in extracting precise kinematic and dynamic tissue features, offering a comprehensive tool for monitoring spine biomechanics and rehabilitation. This framework provides high-fidelity modelling and real-time visualization to improve patient-specific diagnosis and intervention planning.

arxiv情報

著者 Martina Paccini,Simone Cammarasana,Giuseppe Patanè
発行日 2025-06-13 14:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Framework of a multiscale data-driven digital twin of the muscle-skeletal system はコメントを受け付けていません

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution

要約

データ駆動型の画像スーパー解像度(SR)の主要な取り組みは、主にモデルの受容フィールドを拡大してコンテキスト情報をより適切にキャプチャすることに焦点を当てています。
ただし、これらの方法は通常、より深いネットワークを積み重ねたり、変圧器ベースの注意メカニズムを活用したりすることで実装され、その結果、モデルの複雑さが向上します。
対照的に、展開するパラダイムに基づくモデル駆動型の方法は、洗練されたモジュール設計を通じてモデルのコンパクトさを効果的に維持しながら、パフォーマンスを改善しながら有望であることを示しています。
これらの洞察に基づいて、効率的な画像SRのための構造的類似性にインスパイアされた展開(SSIU)メソッドを提案します。
この方法は、データ駆動型アプローチとモデル駆動型アプローチの両方の強度を組み合わせることを目的とした、構造的類似性によって制約されるSR最適化関数を展開することで設計されています。
私たちのモデルは、展開するパラダイムに従って徐々に動作します。
各反復は、複数の混合スケールゲーティングモジュール(MSGM)と効率的なスパース注意モジュール(ESAM)で構成されています。
前者は、構造的類似性の制約を含む機能に対する包括的な制約を実装していますが、後者はまばらな活性化を達成することを目的としています。
さらに、さまざまなステップの機能を組み合わせることにより、マルチレベルの機能情報を完全に利用する専門家ベースの機能セレクター(MOE-FS)を設計します。
広範な実験は、展開されたネットワークの有効性と効率を検証します。
私たちのモデルは、現在の最先端モデルよりも優れており、パラメーターカウントが低く、メモリ消費量の減少を誇っています。
私たちのコードは、https://github.com/eezkni/ssiuで入手できます

要約(オリジナル)

Major efforts in data-driven image super-resolution (SR) primarily focus on expanding the receptive field of the model to better capture contextual information. However, these methods are typically implemented by stacking deeper networks or leveraging transformer-based attention mechanisms, which consequently increases model complexity. In contrast, model-driven methods based on the unfolding paradigm show promise in improving performance while effectively maintaining model compactness through sophisticated module design. Based on these insights, we propose a Structural Similarity-Inspired Unfolding (SSIU) method for efficient image SR. This method is designed through unfolding an SR optimization function constrained by structural similarity, aiming to combine the strengths of both data-driven and model-driven approaches. Our model operates progressively following the unfolding paradigm. Each iteration consists of multiple Mixed-Scale Gating Modules (MSGM) and an Efficient Sparse Attention Module (ESAM). The former implements comprehensive constraints on features, including a structural similarity constraint, while the latter aims to achieve sparse activation. In addition, we design a Mixture-of-Experts-based Feature Selector (MoE-FS) that fully utilizes multi-level feature information by combining features from different steps. Extensive experiments validate the efficacy and efficiency of our unfolding-inspired network. Our model outperforms current state-of-the-art models, boasting lower parameter counts and reduced memory consumption. Our code will be available at: https://github.com/eezkni/SSIU

arxiv情報

著者 Zhangkai Ni,Yang Zhang,Wenhan Yang,Hanli Wang,Shiqi Wang,Sam Kwong
発行日 2025-06-13 14:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution はコメントを受け付けていません

Real-time Seafloor Segmentation and Mapping

要約

Posidonia Oceanica Meadowsは、生存と保全のために岩に大きく依存している海草の種です。
近年、この種の世界的な減少に関する懸念があり、効率的な監視および評価ツールの重要な必要性を強調しています。
ディープラーニングベースのセマンティックセグメンテーションと視覚自動監視システムは、さまざまなアプリケーションで有望であることが示されていますが、水中環境でのパフォーマンスは、複雑な水条件と限られたデータセットのために依然として困難です。
このペーパーでは、機械学習とコンピュータービジョンの技術を組み合わせて、自律型水中車両(AUV)がPosidonia Oceanica Meadowsの境界を自律的に検査できるようにするフレームワークを紹介します。
このフレームワークには、既存のマスクR-CNNモデルとPosidonia Oceanica Meadow境界追跡のための戦略を使用して、画像セグメンテーションモジュールが組み込まれています。
さらに、岩に特化した新しいクラスが導入され、包括的な監視アプローチに貢献し、牧草地とその周辺の環境との複雑な相互作用をより深く理解することを目指しています。
画像セグメンテーションモデルは、実際の水中画像を使用して検証されますが、全体的な検査フレームワークは現実的なシミュレーション環境で評価され、実際の水中画像で実際の監視シナリオを複製します。
結果は、提案されたフレームワークにより、AUVが水中検査と岩石のセグメンテーションの主なタスクを自律的に達成できることを示しています。
その結果、この作業は、海洋環境の保全と保護の重要な可能性を秘めており、Posidonia Oceanica Meadowsの状況に関する貴重な洞察を提供し、標的を絞った保存努力をサポートしています。

要約(オリジナル)

Posidonia oceanica meadows are a species of seagrass highly dependent on rocks for their survival and conservation. In recent years, there has been a concerning global decline in this species, emphasizing the critical need for efficient monitoring and assessment tools. While deep learning-based semantic segmentation and visual automated monitoring systems have shown promise in a variety of applications, their performance in underwater environments remains challenging due to complex water conditions and limited datasets. This paper introduces a framework that combines machine learning and computer vision techniques to enable an autonomous underwater vehicle (AUV) to inspect the boundaries of Posidonia oceanica meadows autonomously. The framework incorporates an image segmentation module using an existing Mask R-CNN model and a strategy for Posidonia oceanica meadow boundary tracking. Furthermore, a new class dedicated to rocks is introduced to enhance the existing model, aiming to contribute to a comprehensive monitoring approach and provide a deeper understanding of the intricate interactions between the meadow and its surrounding environment. The image segmentation model is validated using real underwater images, while the overall inspection framework is evaluated in a realistic simulation environment, replicating actual monitoring scenarios with real underwater images. The results demonstrate that the proposed framework enables the AUV to autonomously accomplish the main tasks of underwater inspection and segmentation of rocks. Consequently, this work holds significant potential for the conservation and protection of marine environments, providing valuable insights into the status of Posidonia oceanica meadows and supporting targeted preservation efforts

arxiv情報

著者 Michele Grimaldi,Nouf Alkaabi,Francesco Ruscio,Sebastian Realpe Rua,Rafael Garcia,Nuno Gracias
発行日 2025-06-13 14:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Real-time Seafloor Segmentation and Mapping はコメントを受け付けていません