Pseudo-Stereo Inputs: A Solution to the Occlusion Challenge in Self-Supervised Stereo Matching

要約

自己教師付きステレオマッチングは、高価なラベル付きデータから独立しているため、応用や研究に大きな期待が持てる。しかし、測光損失関数に基づく直接的な自己教師付きステレオマッチングパラダイムは、オクルージョンの課題による性能問題に一貫して苦戦してきた。オクルージョンの問題の核心は、オクルージョンされたピクセルの位置が、入力ステレオ画像によって定義されたエピポーラ探索方向と常に一致するという事実にある。本研究では、オクルージョンの核となる課題に対処するために、シンプルでありながら非常に効果的な擬似ステレオ入力戦略を提案する。この戦略は入力画像とフィードバック画像を切り離し、ネットワークにオクルージョン物体の両側から確率的に情報をサンプリングさせる。その結果、前述の固定オクルージョン領域における持続的な情報不足が緩和される。これに基づいて、我々はさらに、この戦略から生じるフィードバックの衝突とオーバーフィッティングの問題に対処する。これらの構成要素を統合することで、本手法は既存の手法と比較して安定かつ大幅な性能向上を達成する。性能を評価するために定量的実験を行った。さらに定性的な実験により、オクルード領域でも正確な視差推論が可能であることを示す。これらの結果は、測光損失に基づく直接的な自己教師付きステレオマッチングの分野において、従来の手法よりも大きく進歩したことを示している。提案する擬似ステレオ入力戦略は、その単純さと有効性から、直接自己教師付きステレオマッチングの新しいパラダイムとなる可能性を秘めている。コードはhttps://github.com/qrzyang/Pseudo-Stereo。

要約(オリジナル)

Self-supervised stereo matching holds great promise for application and research due to its independence from expensive labeled data. However, direct self-supervised stereo matching paradigms based on photometric loss functions have consistently struggled with performance issues due to the occlusion challenge. The crux of the occlusion challenge lies in the fact that the positions of occluded pixels consistently align with the epipolar search direction defined by the input stereo images, leading to persistent information loss and erroneous feedback at fixed locations during self-supervised training. In this work, we propose a simple yet highly effective pseudo-stereo inputs strategy to address the core occlusion challenge. This strategy decouples the input and feedback images, compelling the network to probabilistically sample information from both sides of the occluding objects. As a result, the persistent lack of information in the aforementioned fixed occlusion areas is mitigated. Building upon this, we further address feedback conflicts and overfitting issues arising from the strategy. By integrating these components, our method achieves stable and significant performance improvements compared to existing methods. Quantitative experiments are conducted to evaluate the performance. Qualitative experiments further demonstrate accurate disparity inference even at occluded regions. These results demonstrate a significant advancement over previous methods in the field of direct self-supervised stereo matching based on photometric loss. The proposed pseudo-stereo inputs strategy, due to its simplicity and effectiveness, has the potential to serve as a new paradigm for direct self-supervised stereo matching. Code is available at https://github.com/qrzyang/Pseudo-Stereo.

arxiv情報

著者 Ruizhi Yang,Xingqiang Li,Jiajun Bai,Jinsong Du
発行日 2024-10-03 14:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation

要約

水面付近での自律航行、3D再構成、物体認識などのタスクは、海洋ロボットアプリケーションにおいて極めて重要である。しかし、ランダムな空気と水の界面からの光の反射や屈折、不規則な液体の流れなど、動的な外乱のために課題が生じ、知覚やナビゲーションシステムの潜在的な故障につながる可能性がある。従来のコンピュータビジョンアルゴリズムは、実画像領域と仮想画像領域の区別に苦労しており、タスクを著しく複雑にしている。仮想画像領域とは、通常、反射や屈折による光線の再配向によって形成される見かけ上の表現であり、実際の物理的な位置がなくても物体が存在するように錯覚させる。この研究では、領域不変情報、モーションエントロピー・カーネル、エピポーラ幾何学的整合性を組み合わせた合成画像を利用する、実画像領域と仮想画像領域のセグメンテーションのための新しいアプローチを提案する。我々のセグメンテーションネットワークは、ドメインが変わっても再トレーニングの必要がない。このことは、同じセグメンテーション・ネットワークを、シミュレーションと実世界という2つの異なるドメインに展開することで示される。水面の複雑さを模倣したリアルな合成画像を作成することで、我々のネットワーク(MARVIS)が実画像と仮想画像を効果的に識別するためのきめ細かい学習データを提供する。モーションとジオメトリを考慮した設計の選択と包括的な実験分析により、私たちは未知の実世界領域において最先端の実-仮想画像セグメンテーション性能を達成し、小さな計算フットプリントを確保しながら78%以上のIoUと86%以上のF1-Scoreを達成しました。MARVISは、シングルGPU(CPUコア)で43FPS(8FPS)以上の推論レートを提供します。我々のコードとデータセットは、https://github.com/jiayi-wu-umd/MARVIS。

要約(オリジナル)

Tasks such as autonomous navigation, 3D reconstruction, and object recognition near the water surfaces are crucial in marine robotics applications. However, challenges arise due to dynamic disturbances, e.g., light reflections and refraction from the random air-water interface, irregular liquid flow, and similar factors, which can lead to potential failures in perception and navigation systems. Traditional computer vision algorithms struggle to differentiate between real and virtual image regions, significantly complicating tasks. A virtual image region is an apparent representation formed by the redirection of light rays, typically through reflection or refraction, creating the illusion of an object’s presence without its actual physical location. This work proposes a novel approach for segmentation on real and virtual image regions, exploiting synthetic images combined with domain-invariant information, a Motion Entropy Kernel, and Epipolar Geometric Consistency. Our segmentation network does not need to be re-trained if the domain changes. We show this by deploying the same segmentation network in two different domains: simulation and the real world. By creating realistic synthetic images that mimic the complexities of the water surface, we provide fine-grained training data for our network (MARVIS) to discern between real and virtual images effectively. By motion & geometry-aware design choices and through comprehensive experimental analysis, we achieve state-of-the-art real-virtual image segmentation performance in unseen real world domain, achieving an IoU over 78% and a F1-Score over 86% while ensuring a small computational footprint. MARVIS offers over 43 FPS (8 FPS) inference rates on a single GPU (CPU core). Our code and dataset are available here https://github.com/jiayi-wu-umd/MARVIS.

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Shahriar Negahdaripour,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-03 14:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

要約

大規模言語モデル(Large Language Models: LLM)は、テキストデータにおける汎用性の高さで知られているが、正確な画像診断のために重要なタスクである医療画像のセグメンテーションを強化する可能性について、ますます研究が進んでいる。本研究では、事前に訓練されたLLM変換ブロックを統合することで、医用画像セグメンテーションのためのVision Transformers (ViT)を強化することを探求する。ViTベースのモデルのエンコーダにフリーズしたLLM変換ブロックを組み込む我々のアプローチは、様々な医用画像モダリティにおけるセグメンテーション性能の大幅な改善につながる。大局的特徴学習と局所的特徴学習を組み合わせたハイブリッド注意メカニズムを提案し、異なるスケールの特徴を集約するためのマルチスケールフュージョンブロックを用いる。強化されたモデルは、平均Diceスコアが0.74から0.79に増加し、精度、精度、Jaccard指数が向上するなど、大幅な性能向上を示す。これらの結果は、医用画像セグメンテーションの改良におけるLLMベースの変換器の有効性を示し、モデルの精度と頑健性を大幅に向上させる可能性を強調している。ソースコードと我々の実装は以下から入手可能: https://bit.ly/3zf2CVs

要約(オリジナル)

Large Language Models (LLMs), known for their versatility in textual data, are increasingly being explored for their potential to enhance medical image segmentation, a crucial task for accurate diagnostic imaging. This study explores enhancing Vision Transformers (ViTs) for medical image segmentation by integrating pre-trained LLM transformer blocks. Our approach, which incorporates a frozen LLM transformer block into the encoder of a ViT-based model, leads to substantial improvements in segmentation performance across various medical imaging modalities. We propose a Hybrid Attention Mechanism that combines global and local feature learning with a Multi-Scale Fusion Block for aggregating features across different scales. The enhanced model shows significant performance gains, including an average Dice score increase from 0.74 to 0.79 and improvements in accuracy, precision, and the Jaccard Index. These results demonstrate the effectiveness of LLM-based transformers in refining medical image segmentation, highlighting their potential to significantly boost model accuracy and robustness. The source code and our implementation are available at: https://bit.ly/3zf2CVs

arxiv情報

著者 Gurucharan Marthi Krishna Kumar,Aman Chadha,Janine Mendola,Amir Shmuel
発行日 2024-10-03 14:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, eess.IV | コメントする

NestedMorph: Enhancing Deformable Medical Image Registration with Nested Attention Mechanisms

要約

変形可能な画像レジストレーションは、異なるモダリティ間で非線形に医用画像を整列させ、様々な解剖学的構造間の正確な空間的対応を可能にするために極めて重要である。本論文では、T1強調(T1w)MRIと拡散MRI(dMRI)データ間の被験者内変形レジストレーションを改善するために、ネステッド・アテンション・フュージョン(Nested Attention Fusion)アプローチを利用した新しいネットワークであるNestedMorphを紹介する。NestedMorphは、マルチスケールフレームワークを用いて、エンコーダからの高解像度空間詳細情報とデコーダからの意味情報を統合し、局所的特徴抽出と大域的特徴抽出の両方を強化する。我々のモデルは、VoxelMorph、MIDIR、CycleMorphのようなCNNベースのアプローチや、TransMorphやViT-V-NetのようなTransformerベースのモデル、NiftyRegやSyNのような伝統的な手法を含む既存の手法を顕著に上回る。HCPデータセットでの評価は、NestedMorphがSSIM、HD95、SDlogJを含む主要なメトリクスにおいて優れた性能を達成し、最高のSSIMは0.89、最低のHD95は2.5、SDlogJは0.22であることを示しています。これらの結果は、NestedMorphが局所的および大域的な画像特徴を効果的に捉える能力を持ち、優れたレジストレーション性能につながることを強調している。本研究の有望な結果は、NestedMorphが変形可能な医用画像レジストレーションを大幅に進歩させる可能性を強調するものであり、将来の研究や臨床応用のための強固なフレームワークを提供するものである。ソースコードと我々の実装は以下から入手可能: https://bit.ly/3zdVqcg

要約(オリジナル)

Deformable image registration is crucial for aligning medical images in a non-linear fashion across different modalities, allowing for precise spatial correspondence between varying anatomical structures. This paper presents NestedMorph, a novel network utilizing a Nested Attention Fusion approach to improve intra-subject deformable registration between T1-weighted (T1w) MRI and diffusion MRI (dMRI) data. NestedMorph integrates high-resolution spatial details from an encoder with semantic information from a decoder using a multi-scale framework, enhancing both local and global feature extraction. Our model notably outperforms existing methods, including CNN-based approaches like VoxelMorph, MIDIR, and CycleMorph, as well as Transformer-based models such as TransMorph and ViT-V-Net, and traditional techniques like NiftyReg and SyN. Evaluations on the HCP dataset demonstrate that NestedMorph achieves superior performance across key metrics, including SSIM, HD95, and SDlogJ, with the highest SSIM of 0.89, and the lowest HD95 of 2.5 and SDlogJ of 0.22. These results highlight NestedMorph’s ability to capture both local and global image features effectively, leading to superior registration performance. The promising outcomes of this study underscore NestedMorph’s potential to significantly advance deformable medical image registration, providing a robust framework for future research and clinical applications. The source code and our implementation are available at: https://bit.ly/3zdVqcg

arxiv情報

著者 Gurucharan Marthi Krishna Kumar,Janine Mendola,Amir Shmuel
発行日 2024-10-03 14:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクをこなすジェネラリストな具現化エージェントの学習には、主にアクションラベル付けされたロボットデータセットの不足に起因する課題がある。対照的に、膨大な量の人間の動画が存在し、複雑なタスクや物理世界とのインタラクションを捉えている。アクションのない人間のビデオを事前学習に利用し、限られたロボットのデモンストレーションを通じて、ロボットの方針学習を促進するために知識を伝達する有望な展望が生まれる。しかし、人間とロボットの間には領域的な隔たりがあるため、これは依然として難題である。さらに、人間の動画はノイズが多く、マルチモーダルなデータ構造であるため、動的な世界を表す有用な情報を抽出することは困難である。本論文では、これらの課題に取り組むための新しいフレームワークを紹介する。このフレームワークは、人間の動画に対する生成的な事前学習と、少数のアクションラベル付きロボット動画に対するポリシーの微調整を組み合わせるために、統一された離散拡散を活用する。まず、人間とロボットの動画を統一された動画トークンに圧縮することから始める。事前学習段階では、潜在空間における将来のビデオ・トークンを予測するために、マスク・アンド・置換拡散戦略を持つ離散拡散モデルを採用する。微調整段階では、限られたロボットデータセットで低レベルの行動学習を導くために、想像された未来のビデオを利用する。実験により、本手法が、プランニングのために忠実度の高い未来映像を生成し、従来の最先端アプローチと比較して、優れた性能で微調整されたポリシーを強化することが実証された。プロジェクトのウェブサイトはhttps://video-diff.github.io/。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-03 15:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

SuperGS: Super-Resolution 3D Gaussian Splatting via Latent Feature Field and Gradient-guided Splitting

要約

近年、3Dガウス散布法(3DGS)は、そのリアルタイムレンダリング機能と優れた品質により、新規ビュー合成に優れている。しかし、低解像度の入力ビューから得られるプリミティブの粗い性質のため、高解像度の新規ビュー合成(HRNVS)には課題がある。この問題に対処するため、我々は超解像3DGS(SuperGS)を提案する。SuperGSは3DGSの拡張であり、2段階の粗から細への学習フレームワークで設計され、超解像最適化のための初期化として事前学習された低解像度シーン表現を利用する。さらに、柔軟な特徴サンプリングのために潜在特徴フィールドを組み込む多解像度特徴ガウス分割(MFGS)と、効果的なガウスアップサンプリングのために勾配誘導選択分割(GSS)を導入する。これらの戦略を粗から細へのフレームワーク内に統合することで、高い忠実度とメモリ効率の両方を保証する。広範な実験により、SuperGSは、低解像度の入力のみを用いた困難な実世界のデータセットにおいて、最先端のHRNVS手法を凌駕することが実証された。

要約(オリジナル)

Recently, 3D Gaussian Splatting (3DGS) has exceled in novel view synthesis with its real-time rendering capabilities and superior quality. However, it faces challenges for high-resolution novel view synthesis (HRNVS) due to the coarse nature of primitives derived from low-resolution input views. To address this issue, we propose Super-Resolution 3DGS (SuperGS), which is an expansion of 3DGS designed with a two-stage coarse-to-fine training framework, utilizing pretrained low-resolution scene representation as an initialization for super-resolution optimization. Moreover, we introduce Multi-resolution Feature Gaussian Splatting (MFGS) to incorporates a latent feature field for flexible feature sampling and Gradient-guided Selective Splitting (GSS) for effective Gaussian upsampling. By integrating these strategies within the coarse-to-fine framework ensure both high fidelity and memory efficiency. Extensive experiments demonstrate that SuperGS surpasses state-of-the-art HRNVS methods on challenging real-world datasets using only low-resolution inputs.

arxiv情報

著者 Shiyun Xie,Zhiru Wang,Yinghao Zhu,Chengwei Pan
発行日 2024-10-03 15:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Combining Pre- and Post-Demosaicking Noise Removal for RAW Video

要約

ノイズ除去は、カメラセンサーによって取り込まれたデータを表示可能な画像やビデオに変換する処理パイプラインの基本ステップの1つである。一般的にはパイプラインの初期段階、通常はデモザイク処理の前に実行されるが、その順序を入れ替えたり、あるいは合同で実施する研究も提案されている。ディープラーニングの登場により、ノイズ除去アルゴリズムの品質は着実に向上している。それでも、最新のニューラルネットワークは、実世界のアプリケーションに不可欠な、新しいノイズレベルやシーンに適応するのに苦労している。このような背景から、我々は、ベイヤーパターンのCFAビデオデータに対して、デモザイク前デノイザーとデモザイク後デノイザーの両方を重み付けする、自己相似性に基づくノイズ除去スキームを提案する。この2つのバランスが画質を向上させることを示し、経験的にノイズレベルが高いほど、デモザイク前の影響力が高い方が有益であることを見出す。また、それぞれのノイズ除去の前に、時間的軌跡のプレフィルタリングステップを統合することで、テクスチャ再構成をさらに改善する。提案手法は、センサーにおけるノイズモデルの推定を必要とするだけであり、どのようなノイズレベルにも正確に適応し、最先端の技術に引けを取らないため、実世界のビデオ撮影に適している。

要約(オリジナル)

Denoising is one of the fundamental steps of the processing pipeline that converts data captured by a camera sensor into a display-ready image or video. It is generally performed early in the pipeline, usually before demosaicking, although studies swapping their order or even conducting them jointly have been proposed. With the advent of deep learning, the quality of denoising algorithms has steadily increased. Even so, modern neural networks still have a hard time adapting to new noise levels and scenes, which is indispensable for real-world applications. With those in mind, we propose a self-similarity-based denoising scheme that weights both a pre- and a post-demosaicking denoiser for Bayer-patterned CFA video data. We show that a balance between the two leads to better image quality, and we empirically find that higher noise levels benefit from a higher influence pre-demosaicking. We also integrate temporal trajectory prefiltering steps before each denoiser, which further improve texture reconstruction. The proposed method only requires an estimation of the noise model at the sensor, accurately adapts to any noise level, and is competitive with the state of the art, making it suitable for real-world videography.

arxiv情報

著者 Marco Sánchez-Beeckman,Antoni Buades,Nicola Brandonisio,Bilel Kanoun
発行日 2024-10-03 15:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV, I.4 | コメントする

An Improved Variational Method for Image Denoising

要約

全変動(TV)法は、画像の全変動を最小化することによってノイズを低減することを目的とした画像ノイズ除去技術であり、画素強度の変動を測定する。TV法は、エッジを保存し、画質を向上させることができるため、画像処理やコンピュータビジョンに広く応用されている。本論文では、画像ノイズ除去のための改良されたTVモデルと、それを実行するための数値アルゴリズムを提案する。改良されたモデルは一意解を持ち、関連する数値アルゴリズムは収束を保証する。数値実験により、他のTVモデルと比較して改善された有効性とノイズ除去品質を示すことが実証された。このような有望な結果は、画像処理におけるTV法の有用性をさらに高めるものである。

要約(オリジナル)

The total variation (TV) method is an image denoising technique that aims to reduce noise by minimizing the total variation of the image, which measures the variation in pixel intensities. The TV method has been widely applied in image processing and computer vision for its ability to preserve edges and enhance image quality. In this paper, we propose an improved TV model for image denoising and the associated numerical algorithm to carry out the procedure, which is particularly effective in removing several types of noises and their combinations. Our improved model admits a unique solution and the associated numerical algorithm guarantees the convergence. Numerical experiments are demonstrated to show improved effectiveness and denoising quality compared to other TV models. Such encouraging results further enhance the utility of the TV method in image processing.

arxiv情報

著者 Jing-En Huang,Jia-Wei Liao,Ku-Te Lin,Yu-Ju Tsai,Mei-Heng Yueh
発行日 2024-10-03 15:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.NA, math.NA | コメントする

IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers

要約

近年、車載モニタリングは、ドライバーの異常状態を早期に検知し、交通事故を未然に防ぐためのタイムリーなアラートを提供する有望な技術として注目されている。マルチモーダルデータを用いたモデルの学習は、異常状態検出の信頼性を向上させるが、ラベル付けされたデータの少なさやクラス分布の不均衡が、重要な異常状態の特徴の抽出を阻害し、学習性能を著しく悪化させる。さらに、環境やハードウェアの制限によるモダリティの欠落は、異常状態識別の課題をさらに悪化させる。さらに重要なことは、特に高齢者介護において、乗客の異常な健康状態を監視することが最も重要であるが、まだ十分に研究されていないことである。このような課題に対処するために、我々はIC3Mを紹介する。IC3Mは、車内のドライバーと同乗者の両方をモニタリングするための、効率的なカメラ回転ベースのマルチモーダルフレームワークである。IC3Mは、適応的閾値擬似ラベリング戦略と欠落モダリティ再構成の2つの主要モジュールから構成される。前者は、クラス分布に基づいて異なるクラスの擬似ラベリング閾値をカスタマイズし、クラスバランスの取れた擬似ラベルを生成してモデル学習を効果的に導く。後者は、限られたラベルから学習したクロスモダリティ関係を活用し、利用可能なモダリティから分布を転送することで欠損モダリティを正確に復元する。広範な実験結果から、IC3Mは、限られたラベル付きデータと深刻な欠損モダリティの下で、優れた頑健性を示しながら、精度、精度、再現率において最先端のベンチマークを上回ることが実証された。

要約(オリジナル)

Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.

arxiv情報

著者 Zihan Fang,Zheng Lin,Senkang Hu,Hangcheng Cao,Yiqin Deng,Xianhao Chen,Yuguang Fang
発行日 2024-10-03 15:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SY, eess.SY | コメントする

High-Efficiency Neural Video Compression via Hierarchical Predictive Learning

要約

強化されたDeep Hierarchical Video Compression-DHVC 2.0が発表された。この単一モデルのニューラル・ビデオ・コーデックは、広範なビットレートで動作し、代表的な方法よりも優れた圧縮性能を実現するだけでなく、標準的なGPU上で大幅に少ないメモリフットプリントでリアルタイム処理を可能にする、驚異的な複雑さ効率も実現します。これらの顕著な進歩は、階層的予測符号化の使用から生じています。各ビデオフレームは、階層的変分オートエンコーダによってマルチスケール表現に一様に変換される。フレームの特定のスケールの特徴表現に対して、対応する潜在的な残差変数は、同じフレームから低スケールの空間的特徴を参照することによって生成され、次に、前のフレームからの同じスケールの時間的参照と現在のフレームの低スケールの空間的参照を使用してパラメータが予測される確率的モデルを使用して条件付きエントロピー符号化される。この特徴空間処理は、各フレームの最低スケールから最高スケールまで動作するため、数十年にわたってビデオコーデックで標準的に使用されてきた、複雑で負荷の高い動き推定と補正技術を完全に排除することができる。階層的アプローチは並列処理を容易にし、エンコードとデコードの両方を高速化し、伝送に適したプログレッシブデコードをサポートするため、パケットロスが存在するネットワークビデオアプリケーションに特に有利です。ソースコードも公開予定。

要約(オリジナル)

The enhanced Deep Hierarchical Video Compression-DHVC 2.0-has been introduced. This single-model neural video codec operates across a broad range of bitrates, delivering not only superior compression performance to representative methods but also impressive complexity efficiency, enabling real-time processing with a significantly smaller memory footprint on standard GPUs. These remarkable advancements stem from the use of hierarchical predictive coding. Each video frame is uniformly transformed into multiscale representations through hierarchical variational autoencoders. For a specific scale’s feature representation of a frame, its corresponding latent residual variables are generated by referencing lower-scale spatial features from the same frame and then conditionally entropy-encoded using a probabilistic model whose parameters are predicted using same-scale temporal reference from previous frames and lower-scale spatial reference of the current frame. This feature-space processing operates from the lowest to the highest scale of each frame, completely eliminating the need for the complexity-intensive motion estimation and compensation techniques that have been standard in video codecs for decades. The hierarchical approach facilitates parallel processing, accelerating both encoding and decoding, and supports transmission-friendly progressive decoding, making it particularly advantageous for networked video applications in the presence of packet loss. Source codes will be made available.

arxiv情報

著者 Ming Lu,Zhihao Duan,Wuyang Cong,Dandan Ding,Fengqing Zhu,Zhan Ma
発行日 2024-10-03 15:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする