A Label Propagation Strategy for CutMix in Multi-Label Remote Sensing Image Classification

要約

マルチラベルシーン分類(MLC)の監視されたディープラーニングベースの方法の開発は、リモートセンシング(RS)の顕著な研究方向の1つです。
しかし、大規模なRS画像アーカイブの注釈を収集するのは時間がかかり、費用がかかります。
この問題に対処するために、Rsでいくつかのデータ増強方法が導入されています。
とりわけ、2つの既存のトレーニング画像の一部を組み合わせて拡張画像を生成するデータ増強技術CutMixは、特に効果的なアプローチとして際立っています。
ただし、RS MLCにCutMixを直接適用すると、増強された(つまり、組み合わせた)トレーニング画像でクラスラベル(つまり、ラベルノイズ)の消去または追加につながる可能性があります。
この問題に対処するために、ラベルノイズの影響を受けずにRSのMLC問題のコンテキストでCutMixを効果的に適用できるようにするラベル伝播(LP)戦略を導入します。
この目的のために、提案されたLP戦略は、ピクセルレベルのクラスの位置情報を活用して、増強されたトレーニング画像のマルチラベルを更新します。
各トレーニング画像(テーマ製品など)に関連付けられた参照マップから、または参照マップが利用できない場合は説明方法で提供されるクラス説明マスクから、このようなクラスの位置情報にアクセスすることを提案します。
2つのトレーニング画像のペアリングと同様に、当社のLP戦略は、関連するピクセルレベルのクラスの位置情報のペアリング操作を実行して、拡張されたマルチラベルを拡張した画像に導き出します。
実験結果は、特に騒々しいクラスの位置情報を備えたさまざまなシミュレートされた実際のシナリオの場合、一般にLP戦略の有効性とその堅牢性を示しています。

要約(オリジナル)

The development of supervised deep learning-based methods for multi-label scene classification (MLC) is one of the prominent research directions in remote sensing (RS). Yet, collecting annotations for large RS image archives is time-consuming and costly. To address this issue, several data augmentation methods have been introduced in RS. Among others, the data augmentation technique CutMix, which combines parts of two existing training images to generate an augmented image, stands out as a particularly effective approach. However, the direct application of CutMix in RS MLC can lead to the erasure or addition of class labels (i.e., label noise) in the augmented (i.e., combined) training image. To address this problem, we introduce a label propagation (LP) strategy that allows the effective application of CutMix in the context of MLC problems in RS without being affected by label noise. To this end, our proposed LP strategy exploits pixel-level class positional information to update the multi-label of the augmented training image. We propose to access such class positional information from reference maps associated to each training image (e.g., thematic products) or from class explanation masks provided by an explanation method if no reference maps are available. Similarly to pairing two training images, our LP strategy carries out a pairing operation on the associated pixel-level class positional information to derive the updated multi-label for the augmented image. Experimental results show the effectiveness of our LP strategy in general and its robustness in the case of various simulated and real scenarios with noisy class positional information in particular.

arxiv情報

著者 Tom Burgert,Kai Norman Clasen,Jonas Klotz,Tim Siebert,Begüm Demir
発行日 2025-02-07 13:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Label Propagation Strategy for CutMix in Multi-Label Remote Sensing Image Classification はコメントを受け付けていません

Wavelet-Assisted Multi-Frequency Attention Network for Pansharpening

要約

Pansharpeningは、高解像度のマルチスペクトル(LRMS)画像と高解像度パンクロマティック(PAN)画像を組み合わせて、高解像度のマルチスペクトル(HRMS)画像を生成することを目的としています。
周波数ドメインでのパンシャープは明確な利点を提供しますが、ほとんどの既存の方法は、空間ドメインでのみ動作し続けるか、周波数ドメインの利点を完全に活用できません。
この問題に対処するために、革新的に多周波融合注意(MFFA)を提案します。これは、ウェーブレット変換を活用して、周波数をきれいに分離し、異なる周波数ドメインでロスレス再構築を可能にします。
次に、さまざまな特徴で表される物理的意味に基づいて、周波数Query、Spatial-Key、およびFusion-Valueを生成します。これにより、周波数ドメインで特定の情報をより効果的にキャプチャできます。
さらに、さまざまな操作にわたる周波数機能の保存に焦点を当てています。
より広いレベルでは、当社のネットワークはウェーブレットピラミッドを採用して、複数のスケールで情報を徐々に融合させます。
以前の周波数ドメインアプローチと比較して、当社のネットワークは、融合プロセス中のさまざまな周波数機能の混乱と喪失を防ぎます。
複数のデータセットでの定量的および定性的実験は、この方法が既存のアプローチを上回り、実際のシナリオの重要な一般化能力を示すことを示しています。

要約(オリジナル)

Pansharpening aims to combine a high-resolution panchromatic (PAN) image with a low-resolution multispectral (LRMS) image to produce a high-resolution multispectral (HRMS) image. Although pansharpening in the frequency domain offers clear advantages, most existing methods either continue to operate solely in the spatial domain or fail to fully exploit the benefits of the frequency domain. To address this issue, we innovatively propose Multi-Frequency Fusion Attention (MFFA), which leverages wavelet transforms to cleanly separate frequencies and enable lossless reconstruction across different frequency domains. Then, we generate Frequency-Query, Spatial-Key, and Fusion-Value based on the physical meanings represented by different features, which enables a more effective capture of specific information in the frequency domain. Additionally, we focus on the preservation of frequency features across different operations. On a broader level, our network employs a wavelet pyramid to progressively fuse information across multiple scales. Compared to previous frequency domain approaches, our network better prevents confusion and loss of different frequency features during the fusion process. Quantitative and qualitative experiments on multiple datasets demonstrate that our method outperforms existing approaches and shows significant generalization capabilities for real-world scenarios.

arxiv情報

著者 Jie Huang,Rui Huang,Jinghao Xu,Siran Pen,Yule Duan,Liangjian Deng
発行日 2025-02-07 13:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Wavelet-Assisted Multi-Frequency Attention Network for Pansharpening はコメントを受け付けていません

Cached Multi-Lora Composition for Multi-Concept Image Generation

要約

低ランクの適応(LORA)は、マルチコンセプト画像生成において、文字やスタイルなどの複数の異なる要素を正確にレンダリングすることを可能にし、テキストから画像モデルで広く採用された手法として浮上しています。
ただし、現在のアプローチは、これらのLORAをマルチコンセプト画像生成のために作曲する際に大きな課題に直面し、生成された画質が低下します。
この論文では、最初にフーリエ周波数ドメインのレンズを介した除去プロセスにおけるロラの役割を調査します。
複数のLORAを適用すると「セマンティックな競合」につながる可能性があるという仮説に基づいて、特定のLORAはエッジやテクスチャなどの高周波機能を増幅するのに対し、他の人は主に全体的な構造や滑らかな色の勾配を含む低周波要素に焦点を当てていることがわかります。

これらの洞察に基づいて、頻度ドメインベースのシーケンス戦略を考案して、推論中にLORAを統合する最適な順序を決定します。
この戦略は、既存のLORA融合技術で一般的に見られる素朴な統合と比較して、系統的で一般化可能なソリューションを提供します。
提案されているLORA順序シーケンス決定方法をマルチLORA組成タスクで完全に活用するために、凝集画像生成を維持しながら複数のLORAを効率的に統合するように設計された、新しいトレーニングフリーフレームワークであるキャッシュされたマルチロラ(Cmlora)を紹介します。
マルチLORA融合のための柔軟なバックボーンと個々のLORAに合わせた不均一なキャッシュ戦略により、CmloraはLORA組成のセマンティックな競合を減らし、計算効率を改善する可能性があります。
私たちの実験的評価は、Cmloraが最先端のトレーニングを含まないLora融合方法を大幅に上回ることを実証しています。これは、Clipscoreで2.19%\%$ $ 2.19 \%$の平均改善を達成し、MLLMの勝率で11.25 \%$を達成します。
Lorahub、Lora Composite、およびLora Switch。

要約(オリジナル)

Low-Rank Adaptation (LoRA) has emerged as a widely adopted technique in text-to-image models, enabling precise rendering of multiple distinct elements, such as characters and styles, in multi-concept image generation. However, current approaches face significant challenges when composing these LoRAs for multi-concept image generation, resulting in diminished generated image quality. In this paper, we initially investigate the role of LoRAs in the denoising process through the lens of the Fourier frequency domain. Based on the hypothesis that applying multiple LoRAs could lead to ‘semantic conflicts’, we find that certain LoRAs amplify high-frequency features such as edges and textures, whereas others mainly focus on low-frequency elements, including the overall structure and smooth color gradients. Building on these insights, we devise a frequency domain based sequencing strategy to determine the optimal order in which LoRAs should be integrated during inference. This strategy offers a methodical and generalizable solution compared to the naive integration commonly found in existing LoRA fusion techniques. To fully leverage our proposed LoRA order sequence determination method in multi-LoRA composition tasks, we introduce a novel, training-free framework, Cached Multi-LoRA (CMLoRA), designed to efficiently integrate multiple LoRAs while maintaining cohesive image generation. With its flexible backbone for multi-LoRA fusion and a non-uniform caching strategy tailored to individual LoRAs, CMLoRA has the potential to reduce semantic conflicts in LoRA composition and improve computational efficiency. Our experimental evaluations demonstrate that CMLoRA outperforms state-of-the-art training-free LoRA fusion methods by a significant margin — it achieves an average improvement of $2.19\%$ in CLIPScore, and $11.25\%$ in MLLM win rate compared to LoraHub, LoRA Composite, and LoRA Switch.

arxiv情報

著者 Xiandong Zou,Mingzhu Shen,Christos-Savvas Bouganis,Yiren Zhao
発行日 2025-02-07 13:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Cached Multi-Lora Composition for Multi-Concept Image Generation はコメントを受け付けていません

SurGen: 1020 H&E-stained Whole Slide Images With Survival and Genetic Markers

要約

$ \ textbf {background} $:がんは、世界中の罹患率と死亡率の主要な原因の1つであり続けています。
さまざまな腫瘍部位にわたって組織病理学的画像と遺伝的および生存データを組み合わせた包括的なデータセットは、計算病理と個別化医療を進めるために不可欠です。
$ \ textbf {results} $:843の結腸直腸癌症例からの1,020 H&E染色全体のスライド画像(WSI)を含むデータセットであるSurgenを提示します。
データセットには、重要な遺伝的変異(KRA、NRA、BRAF)およびミスマッチ修復ステータスの詳細な注釈、および426症例の生存データが含まれています。
Surgenの実用的なユーティリティを実証するために、WSIからのミスマッチ修復ステータスを予測する概念実証機械学習実験を実施し、0.8316のテストAUROCを達成しました。
これらの予備的な結果は、結腸直腸癌におけるバイオマーカーの発見、予後モデリング、および高度な機械学習アプリケーションの研究を促進するデータセットの可能性を強調しています。
$ \ TextBF {結論} $:Surgenは、科学コミュニティに貴重なリソースを提供し、結腸直腸癌に関する包括的な臨床および遺伝情報とリンクした高品質のWSIを必要とする研究を可能にします。
最初の調査結果は、診断精度を進め、結腸直腸腫瘍学における個別化治療戦略の開発を促進するデータセットの能力を確認しています。
https://doi.org/10.6019/s-biad1285でオンラインで入手できるデータ。

要約(オリジナル)

$\textbf{Background}$: Cancer remains one of the leading causes of morbidity and mortality worldwide. Comprehensive datasets that combine histopathological images with genetic and survival data across various tumour sites are essential for advancing computational pathology and personalised medicine. $\textbf{Results}$: We present SurGen, a dataset comprising 1,020 H&E-stained whole slide images (WSIs) from 843 colorectal cancer cases. The dataset includes detailed annotations for key genetic mutations (KRAS, NRAS, BRAF) and mismatch repair status, as well as survival data for 426 cases. To demonstrate SurGen’s practical utility, we conducted a proof-of-concept machine learning experiment predicting mismatch repair status from the WSIs, achieving a test AUROC of 0.8316. These preliminary results underscore the dataset’s potential to facilitate research in biomarker discovery, prognostic modelling, and advanced machine learning applications in colorectal cancer. $\textbf{Conclusions}$: SurGen offers a valuable resource for the scientific community, enabling studies that require high-quality WSIs linked with comprehensive clinical and genetic information on colorectal cancer. Our initial findings affirm the dataset’s capacity to advance diagnostic precision and foster the development of personalised treatment strategies in colorectal oncology. Data available online at https://doi.org/10.6019/S-BIAD1285.

arxiv情報

著者 Craig Myles,In Hwa Um,Craig Marshall,David Harris-Birtill,David J. Harrison
発行日 2025-02-07 14:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SurGen: 1020 H&E-stained Whole Slide Images With Survival and Genetic Markers はコメントを受け付けていません

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

要約

コンピューター断層撮影(CT)スキャンの急速な増加とその時間のかかる手動分析により、臨床環境での堅牢な自動分析技術の緊急の必要性が生まれました。
これらは、放射線科医を支援し、成長するワークロードの管理を支援することを目的としています。
既存のメソッドは通常、観測された異常に明示的に焦点を当てることなく、3D CT画像から直接レポート全体を生成します。
この無ガイドアプローチは、多くの場合、反復コンテンツまたは不完全なレポートをもたらし、異常固有の説明の優先順位付けに失敗します。
最初に異常を予測し、次にそれぞれのターゲットの説明を生成する新しい異常誘導レポート生成モデルを提案します。
パブリックデータセットの評価は、レポートの品質と臨床的関連性の大幅な改善を示しています。
私たちは、その有効性を実証するためにアブレーション研究を実施することで仕事を拡張します。

要約(オリジナル)

The rapid increase of computed tomography (CT) scans and their time-consuming manual analysis have created an urgent need for robust automated analysis techniques in clinical settings. These aim to assist radiologists and help them managing their growing workload. Existing methods typically generate entire reports directly from 3D CT images, without explicitly focusing on observed abnormalities. This unguided approach often results in repetitive content or incomplete reports, failing to prioritize anomaly-specific descriptions. We propose a new anomaly-guided report generation model, which first predicts abnormalities and then generates targeted descriptions for each. Evaluation on a public dataset demonstrates significant improvements in report quality and clinical relevance. We extend our work by conducting an ablation study to demonstrate its effectiveness.

arxiv情報

著者 Theo Di Piazza,Carole Lazarus,Olivier Nempont,Loic Boussel
発行日 2025-02-07 14:26:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes はコメントを受け付けていません

multiGradICON: A Foundation Model for Multimodal Medical Image Registration

要約

最新の医療画像登録アプローチは、深いネットワークを使用して変形を予測します。
これらのアプローチは、最先端の(SOTA)登録精度を達成し、一般的に高速です。
ただし、Deep Learning(DL)アプローチは、従来のDeep-Learningベースのアプローチとは対照的に、構造固有です。
最近、ユニバーサルディープ登録アプローチであるUnigradiconが提案されています。
ただし、Unigradiconは単モーダルの画像登録に焦点を当てています。
したがって、この作業では、Universal * Multimodal * Medical Image登録への最初のステップとしてMultigradiconを開発します。
具体的には、1)単モーダル *および *マルチモーダル登録に適したDL登録モデルをトレーニングできることを示します。
2)損失関数のランダム化は、マルチモーダル登録精度を高める可能性があります。
3)マルチモーダルデータでモデルをトレーニングするのは、マルチモーダルの一般化に役立ちます。
当社のコードとMultigradiconモデルは、https://github.com/uncbiag/unigradiconで入手できます。

要約(オリジナル)

Modern medical image registration approaches predict deformations using deep networks. These approaches achieve state-of-the-art (SOTA) registration accuracy and are generally fast. However, deep learning (DL) approaches are, in contrast to conventional non-deep-learning-based approaches, anatomy-specific. Recently, a universal deep registration approach, uniGradICON, has been proposed. However, uniGradICON focuses on monomodal image registration. In this work, we therefore develop multiGradICON as a first step towards universal *multimodal* medical image registration. Specifically, we show that 1) we can train a DL registration model that is suitable for monomodal *and* multimodal registration; 2) loss function randomization can increase multimodal registration accuracy; and 3) training a model with multimodal data helps multimodal generalization. Our code and the multiGradICON model are available at https://github.com/uncbiag/uniGradICON.

arxiv情報

著者 Basar Demir,Lin Tian,Thomas Hastings Greer,Roland Kwitt,Francois-Xavier Vialard,Raul San Jose Estepar,Sylvain Bouix,Richard Jarrett Rushmore,Ebrahim Ebrahim,Marc Niethammer
発行日 2025-02-07 14:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | multiGradICON: A Foundation Model for Multimodal Medical Image Registration はコメントを受け付けていません

Training-free Neural Architecture Search through Variance of Knowledge of Deep Network Weights

要約

ディープラーニングはコンピュータービジョンに革命をもたらしましたが、ほとんど手作りであり、したがって次味的である可能性のある深いネットワークアーキテクチャを使用して、その大成功を収めました。
Neural Architecture Search(NAS)は、最大の分類精度などの客観的な基準を考慮して、最適なアーキテクチャを体系的に探す明確な最適化パラダイムに従うことにより、このギャップを埋めることを目指しています。
ただし、NASの主な制限は、通常、各候補ネットワークアーキテクチャをゼロからトレーニングする必要があるため、天文学的な計算コストです。
この論文では、フィッシャー情報に基づいた画像分類の精度に関する新しいトレーニングフリーのプロキシを提案することにより、この制限を緩和することを目指しています。
提案されたプロキシは、統計において強力な理論的背景を持ち、ネットワークをトレーニングせずに特定のディープネットワークの予想される画像分類精度を推定できるため、標準NASアルゴリズムの計算コストが大幅に削減されます。
トレーニングフリーのプロキシは、3つのパブリックデータセットと2つの検索スペースで最先端の結果を達成します。以前に提案されたメトリックを使用して評価した場合、および私たちが提案する新しいメトリックを使用して、実用にとってより有益です
NASアプリケーション。
ソースコードは、http://www.github.com/ondratybl/vkdnwで公開されています

要約(オリジナル)

Deep learning has revolutionized computer vision, but it achieved its tremendous success using deep network architectures which are mostly hand-crafted and therefore likely suboptimal. Neural Architecture Search (NAS) aims to bridge this gap by following a well-defined optimization paradigm which systematically looks for the best architecture, given objective criterion such as maximal classification accuracy. The main limitation of NAS is however its astronomical computational cost, as it typically requires training each candidate network architecture from scratch. In this paper, we aim to alleviate this limitation by proposing a novel training-free proxy for image classification accuracy based on Fisher Information. The proposed proxy has a strong theoretical background in statistics and it allows estimating expected image classification accuracy of a given deep network without training the network, thus significantly reducing computational cost of standard NAS algorithms. Our training-free proxy achieves state-of-the-art results on three public datasets and in two search spaces, both when evaluated using previously proposed metrics, as well as using a new metric that we propose which we demonstrate is more informative for practical NAS applications. The source code is publicly available at http://www.github.com/ondratybl/VKDNW

arxiv情報

著者 Ondřej Týbl,Lukáš Neumann
発行日 2025-02-07 14:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training-free Neural Architecture Search through Variance of Knowledge of Deep Network Weights はコメントを受け付けていません

OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting

要約

手動注釈なしの生センサーデータからセマンティック3D占有を取得することは、依然として不可欠でありながら挑戦的なタスクです。
以前の作品はこれに認識予測の問題としてアプローチしていますが、ジオメトリとセマンティクスを使用したシーン認識3D占有再構成として定式化します。
この作業では、セマンティックと幾何学的認識ガウスのスプラッティングをゼロショットに使用した新しい3D占有再構成フレームワークであるOCCGSを提案します。
LIDARポイントによって誘導されたビジョン言語モデルとジオメトリから抽出されたセマンティクスを活用するOCCGSは、生のマルチセンサーデータからセマンティックおよび幾何学的なガウスを構築します。
また、ガウスからの占有を再構築するための累積ガウスから3Dボクセルスプラッティング方法も開発しています。
OCCGSは、占有率の予測における自己監視方法に対して好意的に機能し、完全に監視されたアプローチと同等のパフォーマンスを達成し、ゼロショットセマンティック3D占有率の推定で最先端のパフォーマンスを達成します。

要約(オリジナル)

Obtaining semantic 3D occupancy from raw sensor data without manual annotations remains an essential yet challenging task. While prior works have approached this as a perception prediction problem, we formulate it as scene-aware 3D occupancy reconstruction with geometry and semantics. In this work, we propose OccGS, a novel 3D Occupancy reconstruction framework utilizing Semantic and Geometric-Aware Gaussian Splatting in a zero-shot manner. Leveraging semantics extracted from vision-language models and geometry guided by LiDAR points, OccGS constructs Semantic and Geometric-Aware Gaussians from raw multisensor data. We also develop a cumulative Gaussian-to-3D voxel splatting method for reconstructing occupancy from the Gaussians. OccGS performs favorably against self-supervised methods in occupancy prediction, achieving comparable performance to fully supervised approaches and achieving state-of-the-art performance on zero-shot semantic 3D occupancy estimation.

arxiv情報

著者 Xiaoyu Zhou,Jingqi Wang,Yongtao Wang,Yufei Wei,Nan Dong,Ming-Hsuan Yang
発行日 2025-02-07 14:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting はコメントを受け付けていません

CMamba: Learned Image Compression with State Space Models

要約

学習した画像圧縮(LIC)は、圧縮効果を実現するために画像コンテンツ分布のモデリングで、畳み込みニューラルネットワーク(CNNS)や変圧器などのさまざまなアーキテクチャを調査しました。
ただし、低い計算の複雑さ(\ IE、パラメーター、フロップ、およびレイテンシ)を維持しながら、高いレート耐性パフォーマンスを達成することは依然として困難です。
このホワイトペーパーでは、低い計算の複雑さで優れた速度歪みパフォーマンスを実現するために、\ textit {cmamba}と呼ばれるハイブリッド畳み込みおよび状態空間モデル(SSM)ベースの画像圧縮フレームワークを提案します。
具体的には、CMAMBAには、コンテンツに適合したSSM(CA-SSM)モジュールとコンテキスト認識エントロピー(CAE)モジュールの2つの重要なコンポーネントを導入します。
まず、SSMSは全体的なコンテンツのモデリングに優れているが、高周波の詳細を失う傾向があることを観察しました。
対照的に、CNNはローカルの詳細をキャプチャするのに熟練しています。
これにより動機付けられて、SSMブロックによって抽出されたグローバルコンテンツと、エンコード段階とデコード段階の両方でCNNブロックによってキャプチャされたローカル詳細を動的に融合できるCA-SSMモジュールを提案します。
その結果、重要な画像コンテンツは圧縮中によく保存されます。
第二に、提案されているCAEモジュールは、エンコード後の潜在表現の空間的およびチャネル冗長性を減らすように設計されています。
具体的には、CAEはSSMを活用して、潜在表現の空間コンテンツをパラメーター化します。
SSMの恩恵を受けると、CAEは空間的な圧縮効率を大幅に改善し、空間コンテンツ冗長性を減らします。
さらに、チャネルの次元に沿って、CAEは自己回帰的な方法で潜在表現のチャネル間冗長性を減らします。これにより、効率を犠牲にすることなく以前のチャネルからの事前知識を完全に活用できます。
実験結果は、CMAMBAが優れたレート耐性パフォーマンスを達成することを示しています。

要約(オリジナル)

Learned Image Compression (LIC) has explored various architectures, such as Convolutional Neural Networks (CNNs) and transformers, in modeling image content distributions in order to achieve compression effectiveness. However, achieving high rate-distortion performance while maintaining low computational complexity (\ie, parameters, FLOPs, and latency) remains challenging. In this paper, we propose a hybrid Convolution and State Space Models (SSMs) based image compression framework, termed \textit{CMamba}, to achieve superior rate-distortion performance with low computational complexity. Specifically, CMamba introduces two key components: a Content-Adaptive SSM (CA-SSM) module and a Context-Aware Entropy (CAE) module. First, we observed that SSMs excel in modeling overall content but tend to lose high-frequency details. In contrast, CNNs are proficient at capturing local details. Motivated by this, we propose the CA-SSM module that can dynamically fuse global content extracted by SSM blocks and local details captured by CNN blocks in both encoding and decoding stages. As a result, important image content is well preserved during compression. Second, our proposed CAE module is designed to reduce spatial and channel redundancies in latent representations after encoding. Specifically, our CAE leverages SSMs to parameterize the spatial content in latent representations. Benefiting from SSMs, CAE significantly improves spatial compression efficiency while reducing spatial content redundancies. Moreover, along the channel dimension, CAE reduces inter-channel redundancies of latent representations via an autoregressive manner, which can fully exploit prior knowledge from previous channels without sacrificing efficiency. Experimental results demonstrate that CMamba achieves superior rate-distortion performance.

arxiv情報

著者 Zhuojie Wu,Heming Du,Shuyun Wang,Ming Lu,Haiyang Sun,Yandong Guo,Xin Yu
発行日 2025-02-07 15:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | CMamba: Learned Image Compression with State Space Models はコメントを受け付けていません

CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation

要約

縁石の検出は、インテリジェントな運転において重要な機能であり、道路上の運転可能な領域を決定するために不可欠です。
ただし、道路環境の複雑さにより、縁石検出が困難になります。
このペーパーでは、ポイントクラウドセグメンテーションを利用した縁石検出のための新しいフレームワークであるCurbnetを紹介します。
3Dアノテーションを備えた包括的な縁石データセットの欠如に対処するために、現在最大かつ最も多様な縁石雲のコレクションであるSemantickittiに基づいた3Dカバートデータセットを開発しました。
縁石の主な特徴が高さの変動であることを認識して、私たちのアプローチはトレーニングのために空間的に豊富な3Dポイント雲を活用します。
XYプレーン上の縁石機能の不均一な分布とZ軸に沿った高周波機能への依存によってもたらされる課題に取り組むために、マルチスケールおよびチャネルの注意(MSCA)モジュールを紹介します。
検出パフォーマンスを最適化します。
さらに、他のカテゴリと比較して、縁石ポイント雲の分布の不均衡に対抗するために特異的に処方された適応加重損失関数グループを提案します。
2つの主要なデータセットで実施された広範な実験は、私たちの方法が、縁石検出とポイントクラウドセグメンテーションモデルによって設定された既存のベンチマークを上回ることを示しています。
検出結果の後処理の改良により、縁石検出のノイズが大幅に減少し、それにより精度が4.5ポイント改善されました。
同様に、当社の耐性実験も最先端の結果を達成しています。
さらに、実際の実験とデータセット分析は相互に相互に検証し、Curbnetの優れた検出機能と堅牢な一般化可能性を強化します。
プロジェクトWebサイトは、https://github.com/guoyangzhao/curbnet/で入手できます。

要約(オリジナル)

Curb detection is a crucial function in intelligent driving, essential for determining drivable areas on the road. However, the complexity of road environments makes curb detection challenging. This paper introduces CurbNet, a novel framework for curb detection utilizing point cloud segmentation. To address the lack of comprehensive curb datasets with 3D annotations, we have developed the 3D-Curb dataset based on SemanticKITTI, currently the largest and most diverse collection of curb point clouds. Recognizing that the primary characteristic of curbs is height variation, our approach leverages spatially rich 3D point clouds for training. To tackle the challenges posed by the uneven distribution of curb features on the xy-plane and their dependence on high-frequency features along the z-axis, we introduce the Multi-Scale and Channel Attention (MSCA) module, a customized solution designed to optimize detection performance. Additionally, we propose an adaptive weighted loss function group specifically formulated to counteract the imbalance in the distribution of curb point clouds relative to other categories. Extensive experiments conducted on 2 major datasets demonstrate that our method surpasses existing benchmarks set by leading curb detection and point cloud segmentation models. Through the post-processing refinement of the detection results, we have significantly reduced noise in curb detection, thereby improving precision by 4.5 points. Similarly, our tolerance experiments also achieve state-of-the-art results. Furthermore, real-world experiments and dataset analyses mutually validate each other, reinforcing CurbNet’s superior detection capability and robust generalizability. The project website is available at: https://github.com/guoyangzhao/CurbNet/.

arxiv情報

著者 Guoyang Zhao,Fulong Ma,Weiqing Qi,Yuxuan Liu,Ming Liu,Jun Ma
発行日 2025-02-07 15:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation はコメントを受け付けていません