Sim2Real in endoscopy segmentation with a novel structure aware image translation

要約

内視鏡画像における解剖学的ランドマークの自動セグメンテーションは、医師や外科医に診断や治療、医療トレーニングの支援を提供することができる。しかし、一般的に使用される教師あり学習法の学習に必要な注釈を得ることは、特に実画像の場合、面倒で困難な作業である。グランドトゥルースの注釈は合成データでは容易に得られるが、そのようなデータで訓練されたモデルは実データにうまく一般化できないことが多い。生成的アプローチは、現実的なテクスチャを追加することができるが、元のシーンの構造を維持することの難しさに直面する。本研究の主な貢献は、主要なシーンレイアウト情報を維持しながら、シミュレーション内視鏡画像にリアルなテクスチャを付加する、新しい画像変換モデルである。我々のアプローチは、様々な内視鏡検査シナリオにおいてリアルな画像を生成する。これらの画像は、実際のラベル付けされたデータ無しで、困難な最終タスクのモデル学習に効果的に使用できることを実証する。特に、大腸内視鏡画像における襞のセグメンテーションのタスクに対して、我々のアプローチを実証する。襞は解剖学的に重要なランドマークであり、大腸粘膜の一部やポリープの可能性を閉塞する可能性がある。我々のアプローチは、既存の方法よりも、画像スタイル変換後も元の襞の形状と位置を維持したリアルな画像を生成する。我々は、ひだセグメンテーションのための新しいシミュレーションデータセットと、EndoMapper (EM)データセットからの実データの両方で実験を行った。折れ線セグメンテーションのタスクについては、現在公開されているベンチマークがないため、さらなる研究を促進するために、新たに生成したデータとEMのメタデータをすべて公開する。

要約(オリジナル)

Automatic segmentation of anatomical landmarks in endoscopic images can provide assistance to doctors and surgeons for diagnosis, treatments or medical training. However, obtaining the annotations required to train commonly used supervised learning methods is a tedious and difficult task, in particular for real images. While ground truth annotations are easier to obtain for synthetic data, models trained on such data often do not generalize well to real data. Generative approaches can add realistic texture to it, but face difficulties to maintain the structure of the original scene. The main contribution in this work is a novel image translation model that adds realistic texture to simulated endoscopic images while keeping the key scene layout information. Our approach produces realistic images in different endoscopy scenarios. We demonstrate these images can effectively be used to successfully train a model for a challenging end task without any real labeled data. In particular, we demonstrate our approach for the task of fold segmentation in colonoscopy images. Folds are key anatomical landmarks that can occlude parts of the colon mucosa and possible polyps. Our approach generates realistic images maintaining the shape and location of the original folds, after the image-style-translation, better than existing methods. We run experiments both on a novel simulated dataset for fold segmentation, and real data from the EndoMapper (EM) dataset. All our new generated data and new EM metadata is being released to facilitate further research, as no public benchmark is currently available for the task of fold segmentation.

arxiv情報

著者 Clara Tomasini,Luis Riazuelo,Ana C. Murillo
発行日 2025-05-05 13:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.2.10 | Sim2Real in endoscopy segmentation with a novel structure aware image translation はコメントを受け付けていません

Grasp the Graph (GtG) 2.0: Ensemble of GNNs for High-Precision Grasp Pose Detection in Clutter

要約

雑然とした実環境における把持ポーズ検出は、ノイズが多く不完全な感覚データと複雑な物体形状との組み合わせにより、依然として大きな課題となっている。本論文では、Grasp the Graph 2.0 (GtG 2.0)法を紹介する。GtG 2.0は、点群データから効率的な幾何学的推論を行うために、グラフニューラルネットワークのアンサンブルを活用した、軽量でありながら非常に効果的な仮説と検証を行うロボット把持フレームワークである。GtG 2.0は、グラフニューラルネットワークによる把持検出の可能性を示したGtG 1.0の成功に基づき、7次元の把持候補を効率的に生成するために従来のGrasp Pose Generatorを採用しています。把持候補は、グリッパーの顎内の点(内点)と周囲の文脈点(外点)を含むアンサンブルグラフニューラルネットワークモデルで評価されます。この改良された表現により、同じジェネレーターを使用した従来の手法よりも、把持検出性能が向上しました。GtG 2.0は、GraspNet-1Billionベンチマークにおいて、仮説とテストやグラフニューラルネットワークベースの手法と比較して、平均精度が最大35%向上しており、上位3つのフレームワークにランクインしています。3-DofデルタパラレルロボットとKinect-v1カメラを用いた実験では、成功率91%、クラッタ完了率100%を示し、その柔軟性と信頼性を実証しています。

要約(オリジナル)

Grasp pose detection in cluttered, real-world environments remains a significant challenge due to noisy and incomplete sensory data combined with complex object geometries. This paper introduces Grasp the Graph 2.0 (GtG 2.0) method, a lightweight yet highly effective hypothesis-and-test robotics grasping framework which leverages an ensemble of Graph Neural Networks for efficient geometric reasoning from point cloud data. Building on the success of GtG 1.0, which demonstrated the potential of Graph Neural Networks for grasp detection but was limited by assumptions of complete, noise-free point clouds and 4-Dof grasping, GtG 2.0 employs a conventional Grasp Pose Generator to efficiently produce 7-Dof grasp candidates. Candidates are assessed with an ensemble Graph Neural Network model which includes points within the gripper jaws (inside points) and surrounding contextual points (outside points). This improved representation boosts grasp detection performance over previous methods using the same generator. GtG 2.0 shows up to a 35% improvement in Average Precision on the GraspNet-1Billion benchmark compared to hypothesis-and-test and Graph Neural Network-based methods, ranking it among the top three frameworks. Experiments with a 3-Dof Delta Parallel robot and Kinect-v1 camera show a success rate of 91% and a clutter completion rate of 100%, demonstrating its flexibility and reliability.

arxiv情報

著者 Ali Rashidi Moghadam,Sayedmohammadreza Rastegari,Mehdi Tale Masouleh,Ahmad Kalhor
発行日 2025-05-05 14:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | Grasp the Graph (GtG) 2.0: Ensemble of GNNs for High-Precision Grasp Pose Detection in Clutter はコメントを受け付けていません

Multimodal Deep Learning for Stroke Prediction and Detection using Retinal Imaging and Clinical Data

要約

脳卒中は公衆衛生上の大きな問題であり、世界中で数百万人が罹患している。ディープラーニングは最近、脳卒中の診断とリスク予測の強化に有望であることが示された。しかし、既存の方法は、コンピュータ断層撮影のような高価な医療用画像診断に依存している。最近の研究では、網膜と脳の間で臨床経路が共有されているため、網膜イメージングが脳血管の健康評価に費用対効果の高い代替手段を提供できる可能性が示唆されている。そこで本研究では、網膜画像と臨床データを活用した脳卒中検出とリスク予測への影響を探る。我々は、光干渉断層計(OCT)と赤外反射網膜スキャンを、人口統計、バイタルサイン、診断コードなどの臨床データと組み合わせて処理するマルチモーダル深層ニューラルネットワークを提案する。我々は、37$ kスキャンからなる実世界のデータセットを用いて、自己教師あり学習フレームワークを用いてモデルを事前訓練し、その後、より少ないラベル付きサブセットを用いてモデルを微調整し、評価した。我々の経験的知見は、急性脳卒中に関連する網膜の永続的な影響を検出し、特定の時間軸における将来のリスクを予測する上で、考慮したモダリティの予測能力を立証する。実験結果は、ユニモーダル画像のみのベースラインと比較して$5$%のAUROC改善を達成し、既存の最先端基礎モデルと比較して$8$%の改善を達成することにより、我々の提案するフレームワークの有効性を実証する。結論として、本研究は、高リスク患者の同定と長期的転帰の改善における網膜画像の可能性を強調する。

要約(オリジナル)

Stroke is a major public health problem, affecting millions worldwide. Deep learning has recently demonstrated promise for enhancing the diagnosis and risk prediction of stroke. However, existing methods rely on costly medical imaging modalities, such as computed tomography. Recent studies suggest that retinal imaging could offer a cost-effective alternative for cerebrovascular health assessment due to the shared clinical pathways between the retina and the brain. Hence, this study explores the impact of leveraging retinal images and clinical data for stroke detection and risk prediction. We propose a multimodal deep neural network that processes Optical Coherence Tomography (OCT) and infrared reflectance retinal scans, combined with clinical data, such as demographics, vital signs, and diagnosis codes. We pretrained our model using a self-supervised learning framework using a real-world dataset consisting of $37$ k scans, and then fine-tuned and evaluated the model using a smaller labeled subset. Our empirical findings establish the predictive ability of the considered modalities in detecting lasting effects in the retina associated with acute stroke and forecasting future risk within a specific time horizon. The experimental results demonstrate the effectiveness of our proposed framework by achieving $5$\% AUROC improvement as compared to the unimodal image-only baseline, and $8$\% improvement compared to an existing state-of-the-art foundation model. In conclusion, our study highlights the potential of retinal imaging in identifying high-risk patients and improving long-term outcomes.

arxiv情報

著者 Saeed Shurrab,Aadim Nepal,Terrence J. Lee-St. John,Nicola G. Ghazi,Bartlomiej Piechowski-Jozwiak,Farah E. Shamout
発行日 2025-05-05 14:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Multimodal Deep Learning for Stroke Prediction and Detection using Retinal Imaging and Clinical Data はコメントを受け付けていません

Enhancing person re-identification via Uncertainty Feature Fusion Method and Auto-weighted Measure Combination

要約

人物の再同定(Re-ID)は、監視システムにおいて、異なるカメラビュー間で同一人物を識別することを含む困難なタスクである。現在の手法は、通常、単一カメラビューからの特徴に依存しており、複数のカメラや、視点の変化やオクルージョンのような課題を扱う場合には、限界がある。本論文では、不確定特徴融合法(UFFM)と自動重み付け計測結合(AMC)を用いてReIDモデルの能力を向上させる新しいアプローチを紹介する。UFFMは、ビューの偏りを緩和するために、複数の画像から独立に抽出された特徴を用いてマルチビュー特徴を生成する。しかし、マルチビュー特徴量に基づく類似度のみに依存することは、これらの特徴量がシングルビュー特徴量で表現される詳細を無視するため、限界がある。そこで我々は、様々な尺度を組み合わせることで、より頑健な類似度尺度を生成するAMC法を提案する。我々の手法は、人物再識別データセットで評価した場合、Rank@1精度と平均平均精度(mAP)を大幅に改善する。MSMT17データセットでは、Rank@1が7.9%、mAPが12.1%向上し、BoTベースラインと組み合わせることで素晴らしい結果を達成した。Occluded-DukeMTMCデータセットでは、我々の手法はRank@1を22.0%、mAPを18.4%向上させた。コードはhttps://github.com/chequanghuy/Enhancing-Person-Re-Identification-via-UFFM-and-AMC

要約(オリジナル)

Person re-identification (Re-ID) is a challenging task that involves identifying the same person across different camera views in surveillance systems. Current methods usually rely on features from single-camera views, which can be limiting when dealing with multiple cameras and challenges such as changing viewpoints and occlusions. In this paper, a new approach is introduced that enhances the capability of ReID models through the Uncertain Feature Fusion Method (UFFM) and Auto-weighted Measure Combination (AMC). UFFM generates multi-view features using features extracted independently from multiple images to mitigate view bias. However, relying only on similarity based on multi-view features is limited because these features ignore the details represented in single-view features. Therefore, we propose the AMC method to generate a more robust similarity measure by combining various measures. Our method significantly improves Rank@1 accuracy and Mean Average Precision (mAP) when evaluated on person re-identification datasets. Combined with the BoT Baseline on challenging datasets, we achieve impressive results, with a 7.9% improvement in Rank@1 and a 12.1% improvement in mAP on the MSMT17 dataset. On the Occluded-DukeMTMC dataset, our method increases Rank@1 by 22.0% and mAP by 18.4%. Code is available: https://github.com/chequanghuy/Enhancing-Person-Re-Identification-via-UFFM-and-AMC

arxiv情報

著者 Quang-Huy Che,Le-Chuong Nguyen,Duc-Tuan Luu,Vinh-Tiep Nguyen
発行日 2025-05-05 14:24:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Enhancing person re-identification via Uncertainty Feature Fusion Method and Auto-weighted Measure Combination はコメントを受け付けていません

Active Data Curation Effectively Distills Large-Scale Multimodal Models

要約

知識蒸留(KD)は、大規模なモデルをより小さなモデルに圧縮するためのデファクトスタンダードである。先行研究では、様々な目的関数、教師アンサンブル、重み継承を含む、より複雑なKD戦略を探求してきた。この研究では、対照的なマルチモーダルプリトレーニングのための効果的な蒸留としての能動的データキュレーション(active data curation)という、代替の、まだ単純なアプローチを探求する。我々の単純なオンラインバッチ選択法ACIDは、様々なモデル、データ、計算機構成において、強力なKDベースラインを凌駕する。さらに、このような能動的なデータキュレーション戦略は、実際には標準的なKDと補完的であり、高性能な推論効率の良いモデルを学習するために効果的に組み合わせることができる。我々のシンプルでスケーラブルな事前学習フレームワークであるACEDは、27のゼロショット分類と検索タスクにおいて、推論FLOPsを最大11%削減し、最先端の結果を達成した。さらに、我々のACEDモデルは、LiT-Decoder設定において、生成的マルチモーダルモデルを訓練するための強力なビジョンエンコーダをもたらし、画像キャプションや視覚的質問応答タスクにおいて、より大きなビジョンエンコーダを凌駕することを実証する。

要約(オリジナル)

Knowledge distillation (KD) is the de facto standard for compressing large-scale models into smaller ones. Prior works have explored ever more complex KD strategies involving different objective functions, teacher-ensembles, and weight inheritance. In this work we explore an alternative, yet simple approach — active data curation as effective distillation for contrastive multimodal pretraining. Our simple online batch selection method, ACID, outperforms strong KD baselines across various model-, data- and compute-configurations. Further, we find such an active data curation strategy to in fact be complementary to standard KD, and can be effectively combined to train highly performant inference-efficient models. Our simple and scalable pretraining framework, ACED, achieves state-of-the-art results across 27 zero-shot classification and retrieval tasks with upto 11% less inference FLOPs. We further demonstrate that our ACED models yield strong vision-encoders for training generative multimodal models in the LiT-Decoder setting, outperforming larger vision encoders for image-captioning and visual question-answering tasks.

arxiv情報

著者 Vishaal Udandarao,Nikhil Parthasarathy,Muhammad Ferjad Naeem,Talfan Evans,Samuel Albanie,Federico Tombari,Yongqin Xian,Alessio Tonioni,Olivier J. Hénaff
発行日 2025-05-05 14:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Active Data Curation Effectively Distills Large-Scale Multimodal Models はコメントを受け付けていません

Dance of Fireworks: An Interactive Broadcast Gymnastics Training System Based on Pose Estimation

要約

本研究では、ラジオ体操への取り組みを強化することで、座りっぱなしの健康リスクと闘うように設計された対話型システムである「花火のダンス」を紹介する。このシステムは、携帯端末のカメラと軽量ポーズ推定(PoseNet/TensorFlow Lite)を活用して、身体のキーポイントを抽出し、関節角度を計算し、標準化された動作と比較することで、リアルタイムの修正フィードバックを提供する。参加意欲を高めるために、ユーザーの動き(関節角度や速度など)をカスタマイズ可能な花火アニメーションに動的にマッピングし、精度の向上により豊かな視覚効果で報酬を与える。136人が参加した実験では、4回のセッションで関節角度の平均誤差が21.3度から9.8度へと有意に減少し(p<0.01)、93.4%のユーザーが運動促進効果を肯定し、85.4%のユーザーがエンターテインメント性を高く評価した。このシステムは、事前に定義されたモーション・テンプレートや特別なハードウェアなしで動作するため、オフィス環境にシームレスに統合することができる。将来的には、ポーズ認識精度の向上、待ち時間の短縮、多人数参加型インタラクションや音楽同期などの機能の追加に重点を置いた機能拡張を行う予定である。この研究は、座りがちな人々の身体活動を促進するための、費用対効果が高く、魅力的なソリューションを提示している。

要約(オリジナル)

This study introduces Dance of Fireworks, an interactive system designed to combat sedentary health risks by enhancing engagement in radio calisthenics. Leveraging mobile device cameras and lightweight pose estimation (PoseNet/TensorFlow Lite), the system extracts body keypoints, computes joint angles, and compares them with standardized motions to deliver real-time corrective feedback. To incentivize participation, it dynamically maps users’ movements (such as joint angles and velocity) to customizable fireworks animations, rewarding improved accuracy with richer visual effects. Experiments involving 136 participants demonstrated a significant reduction in average joint angle errors from 21.3 degrees to 9.8 degrees (p < 0.01) over four sessions, with 93.4 percent of users affirming its exercise-promoting efficacy and 85.4 percent praising its entertainment value. The system operates without predefined motion templates or specialised hardware, enabling seamless integration into office environments. Future enhancements will focus on improving pose recognition accuracy, reducing latency, and adding features such as multiplayer interaction and music synchronisation. This work presents a cost-effective, engaging solution to promote physical activity in sedentary populations.

arxiv情報

著者 Haotian Chen,Ziyu Liu,Xi Cheng,Chuangqi Li
発行日 2025-05-05 14:41:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Dance of Fireworks: An Interactive Broadcast Gymnastics Training System Based on Pose Estimation はコメントを受け付けていません

Structure Causal Models and LLMs Integration in Medical Visual Question Answering

要約

医療ビジュアル質問応答(Medical Visual Question Answering:MedVQA)は、医療画像に従って医療質問に回答することを目的としている。しかし、医療データは複雑であるため、観察が困難な交絡因子が存在し、画像と質問の間のバイアスは避けられない。このようなクロスモーダルなバイアスは、医学的に意味のある答えを推測することを困難にする。本研究では、MedVQAタスクのための因果推論フレームワークを提案し、画像と質問間の相対的交絡効果を効果的に除去することで、質問応答(QA)セッションの精度を確保する。我々は、視覚的要素とテキスト的要素の相互作用を表現する新しい因果グラフ構造を初めて導入し、異なる質問が視覚的特徴にどのような影響を与えるかを明示的に捉える。最適化の際には、相互情報を適用してスプリアス相関を発見し、相対的交絡効果を除去するために多変量リサンプリングフロントドア調整法を提案する。さらに、複雑な医療データを理解し、正確に回答するモデルの能力を向上させるために、複数のプロンプト形式を組み合わせたプロンプト戦略を導入する。3つのMedVQAデータセットを用いた広範な実験により、1)我々の手法がMedVQAの精度を大幅に向上させること、2)我々の手法が複雑な医療データに直面しても真の因果相関を達成することが実証された。

要約(オリジナル)

Medical Visual Question Answering (MedVQA) aims to answer medical questions according to medical images. However, the complexity of medical data leads to confounders that are difficult to observe, so bias between images and questions is inevitable. Such cross-modal bias makes it challenging to infer medically meaningful answers. In this work, we propose a causal inference framework for the MedVQA task, which effectively eliminates the relative confounding effect between the image and the question to ensure the precision of the question-answering (QA) session. We are the first to introduce a novel causal graph structure that represents the interaction between visual and textual elements, explicitly capturing how different questions influence visual features. During optimization, we apply the mutual information to discover spurious correlations and propose a multi-variable resampling front-door adjustment method to eliminate the relative confounding effect, which aims to align features based on their true causal relevance to the question-answering task. In addition, we also introduce a prompt strategy that combines multiple prompt forms to improve the model’s ability to understand complex medical data and answer accurately. Extensive experiments on three MedVQA datasets demonstrate that 1) our method significantly improves the accuracy of MedVQA, and 2) our method achieves true causal correlations in the face of complex medical data.

arxiv情報

著者 Zibo Xu,Qiang Li,Weizhi Nie,Weijie Wang,Anan Liu
発行日 2025-05-05 14:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Structure Causal Models and LLMs Integration in Medical Visual Question Answering はコメントを受け付けていません

Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery

要約

本研究では、ロバストな単眼奥行きスケール復元法を提案する。単眼的奥行き推定は、(1)スケール情報なしで正規化または逆奥行きを提供する相対的奥行き推定と、(2)絶対スケールで奥行きを回復するメトリック奥行き推定の2つの方向に大別できる。実用的な下流タスクのために絶対的なスケール情報を得るために、相対的な深度マップのスケールを回復するためにテキスト情報を利用することは、非常に有望なアプローチである。しかし、1つの画像に異なる視点やスタイルによる複数の記述が存在するため、テキスト記述の違いが縮尺復元処理に大きな影響を与えることが示されている。この問題に対処するため、我々の手法であるVGLDは、テキスト記述とともに、対応する画像から高レベルの意味情報を取り込むことで、テキスト情報の影響を安定化させる。このアプローチはテキストの曖昧さを解決し、相対深度マップにグローバルに適用可能な線形変換パラメータ(スカラー)のセットを頑健に出力し、最終的にメトリックスケールの精度で深度予測を生成する。屋内シーン(NYUv2)と屋外シーン(KITTI)の両方を用いて、いくつかの一般的な相対奥行きモデル(MiDas, DepthAnything)間で我々の手法を検証する。我々の結果は、VGLDが複数のデータセットで訓練されたとき、普遍的なアライメントモジュールとして機能し、ゼロショットのシナリオでも強力な性能を達成することを示している。コードはhttps://github.com/pakinwu/VGLD。

要約(オリジナル)

We propose a robust method for monocular depth scale recovery. Monocular depth estimation can be divided into two main directions: (1) relative depth estimation, which provides normalized or inverse depth without scale information, and (2) metric depth estimation, which involves recovering depth with absolute scale. To obtain absolute scale information for practical downstream tasks, utilizing textual information to recover the scale of a relative depth map is a highly promising approach. However, since a single image can have multiple descriptions from different perspectives or with varying styles, it has been shown that different textual descriptions can significantly affect the scale recovery process. To address this issue, our method, VGLD, stabilizes the influence of textual information by incorporating high-level semantic information from the corresponding image alongside the textual description. This approach resolves textual ambiguities and robustly outputs a set of linear transformation parameters (scalars) that can be globally applied to the relative depth map, ultimately generating depth predictions with metric-scale accuracy. We validate our method across several popular relative depth models(MiDas, DepthAnything), using both indoor scenes (NYUv2) and outdoor scenes (KITTI). Our results demonstrate that VGLD functions as a universal alignment module when trained on multiple datasets, achieving strong performance even in zero-shot scenarios. Code is available at: https://github.com/pakinwu/VGLD.

arxiv情報

著者 Bojin Wu,Jing Chen
発行日 2025-05-05 14:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery はコメントを受け付けていません

Multi-View Learning with Context-Guided Receptance for Image Denoising

要約

画像ノイズ除去は、写真撮影や自動運転などの低レベル視覚アプリケーションにおいて不可欠である。既存の手法は、実世界のシーンにおける複雑なノイズパターンを区別するのに苦労しており、Transformerベースのモデルに依存しているため、多大な計算リソースを消費している。この研究では、効率的なシーケンスモデリングと強化された多視点特徴統合を組み合わせた、コンテキストガイド付きレセプタンス重み付きキー値(Context-guided Receptance Weighted Key-Value)モデル(Context-guided Receptance Weighted Key-Value)を提案する。我々のアプローチは、局所的な空間依存性を効果的に捕捉し、実世界のノイズ分布をモデル化するモデルの能力を向上させるContext-guided Token Shift (CTS)パラダイムを導入します。さらに、周波数領域の特徴を抽出するFMix(Frequency Mix)モジュールは、高周波スペクトルのノイズを分離するように設計されており、マルチビュー学習プロセスを通じて空間表現と統合される。計算効率を向上させるため、双方向WKV(BiWKV)機構を採用し、因果選択制約を克服しつつ、線形複雑度で完全な画素-配列相互作用を可能にする。このモデルは複数の実世界の画像ノイズ除去データセットで検証され、定量的には既存の最先端手法を上回り、推論時間は40%まで短縮された。定性的な結果はさらに、様々なシーンにおける微細なディテールを復元する我々のモデルの能力を示す。

要約(オリジナル)

Image denoising is essential in low-level vision applications such as photography and automated driving. Existing methods struggle with distinguishing complex noise patterns in real-world scenes and consume significant computational resources due to reliance on Transformer-based models. In this work, the Context-guided Receptance Weighted Key-Value (\M) model is proposed, combining enhanced multi-view feature integration with efficient sequence modeling. Our approach introduces the Context-guided Token Shift (CTS) paradigm, which effectively captures local spatial dependencies and enhance the model’s ability to model real-world noise distributions. Additionally, the Frequency Mix (FMix) module extracting frequency-domain features is designed to isolate noise in high-frequency spectra, and is integrated with spatial representations through a multi-view learning process. To improve computational efficiency, the Bidirectional WKV (BiWKV) mechanism is adopted, enabling full pixel-sequence interaction with linear complexity while overcoming the causal selection constraints. The model is validated on multiple real-world image denoising datasets, outperforming the existing state-of-the-art methods quantitatively and reducing inference time up to 40\%. Qualitative results further demonstrate the ability of our model to restore fine details in various scenes.

arxiv情報

著者 Binghong Chen,Tingting Chai,Wei Jiang,Yuanrong Xu,Guanglu Zhou,Xiangqian Wu
発行日 2025-05-05 14:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Multi-View Learning with Context-Guided Receptance for Image Denoising はコメントを受け付けていません

A Rate-Quality Model for Learned Video Coding

要約

学習型ビデオ符号化(LVC)は近年、優れた符号化性能を達成している。本論文では、学習型ビデオ符号化におけるレートと品質(R-Q)の関係をパラメトリック関数でモデル化する。RQNetと呼ばれるニューラルネットワークを学習し、映像コンテンツと符号化コンテキストに応じたビットレートと品質レベルの関係を特徴付ける。予測された(R,Q)結果は、さらに最小二乗法を用いて以前に符号化されたフレームからの結果と統合され、R-Qモデルのパラメータをその場で決定する。従来のアプローチと比較して、我々の方法はR-Q関係を正確に推定し、柔軟性と精度の両方を向上させるモデルパラメータのオンライン適応を可能にする。実験の結果、我々のR-Qモデルは、一般的に使用されるデータセットにおいて、最小限の複雑さを追加するだけで、ベースライン法よりも大幅に小さいビットレートの偏差を達成することが示された。

要約(オリジナル)

Learned video coding (LVC) has recently achieved superior coding performance. In this paper, we model the rate-quality (R-Q) relationship for learned video coding by a parametric function. We learn a neural network, termed RQNet, to characterize the relationship between the bitrate and quality level according to video content and coding context. The predicted (R,Q) results are further integrated with those from previously coded frames using the least-squares method to determine the parameters of our R-Q model on-the-fly. Compared to the conventional approaches, our method accurately estimates the R-Q relationship, enabling the online adaptation of model parameters to enhance both flexibility and precision. Experimental results show that our R-Q model achieves significantly smaller bitrate deviations than the baseline method on commonly used datasets with minimal additional complexity.

arxiv情報

著者 Sang NguyenQuang,Cheng-Wei Chen,Xiem HoangVan,Wen-Hsiao Peng
発行日 2025-05-05 15:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | A Rate-Quality Model for Learned Video Coding はコメントを受け付けていません