Towards Computation- and Communication-efficient Computational Pathology

要約

現在の計算病理学モデルは、広範な用途で優れた性能を発揮しているにもかかわらず、高倍率の全スライド画像解析に依存しているため、診断効率という大きな課題に直面している。この限界は、特に時間に敏感な診断シナリオや効率的なデータ転送を必要とする状況において、その臨床的有用性を著しく損なう。これらの問題に対処するために、我々は、Magnification-Aligned Global-Local Transformer (MAGA-GLTrans)と呼ばれる、計算および通信効率の高い新しいフレームワークを提案する。我々のアプローチは、高倍率入力ではなく低倍率入力を用いた効果的な解析を可能にすることで、計算時間、ファイル転送要件、ストレージオーバーヘッドを大幅に削減する。重要な革新は、提案する倍率アライメント(MAGA)メカニズムにあり、これは、低倍率と高倍率の特徴表現を効果的にアライメントすることで、低倍率と高倍率の間の情報ギャップを埋めるために、自己教師あり学習を採用している。様々な基本的なCPathタスクにおける広範な評価を通して、MAGA-GLTransは、計算時間を最大10.7倍削減し、ファイル転送とストレージ要件を20倍以上削減するという顕著な効率化を達成しながら、最先端の分類性能を示す。さらに、(1)あらゆるCPathアーキテクチャの効率を向上させる特徴抽出器としての適用性、(2)既存の基礎モデルや病理組織学に特化したエンコーダとの互換性により、最小限の情報損失で低倍率の入力を処理できるようにする、という2つの重要な拡張を通じて、我々のMAGAフレームワークの汎用性を強調している。これらの進歩により、MAGA-GLTransは、特に正確性と効率性の両方が最優先される術中凍結切片診断のような、時間に制約のあるアプリケーションにおいて特に有望なソリューションと位置づけられます。

要約(オリジナル)

Despite the impressive performance across a wide range of applications, current computational pathology models face significant diagnostic efficiency challenges due to their reliance on high-magnification whole-slide image analysis. This limitation severely compromises their clinical utility, especially in time-sensitive diagnostic scenarios and situations requiring efficient data transfer. To address these issues, we present a novel computation- and communication-efficient framework called Magnification-Aligned Global-Local Transformer (MAGA-GLTrans). Our approach significantly reduces computational time, file transfer requirements, and storage overhead by enabling effective analysis using low-magnification inputs rather than high-magnification ones. The key innovation lies in our proposed magnification alignment (MAGA) mechanism, which employs self-supervised learning to bridge the information gap between low and high magnification levels by effectively aligning their feature representations. Through extensive evaluation across various fundamental CPath tasks, MAGA-GLTrans demonstrates state-of-the-art classification performance while achieving remarkable efficiency gains: up to 10.7 times reduction in computational time and over 20 times reduction in file transfer and storage requirements. Furthermore, we highlight the versatility of our MAGA framework through two significant extensions: (1) its applicability as a feature extractor to enhance the efficiency of any CPath architecture, and (2) its compatibility with existing foundation models and histopathology-specific encoders, enabling them to process low-magnification inputs with minimal information loss. These advancements position MAGA-GLTrans as a particularly promising solution for time-sensitive applications, especially in the context of intraoperative frozen section diagnosis where both accuracy and efficiency are paramount.

arxiv情報

著者 Chu Han,Bingchao Zhao,Jiatai Lin,Shanshan Lyu,Longfei Wang,Tianpeng Deng,Cheng Lu,Changhong Liang,Hannah Y. Wen,Xiaojing Guo,Zhenwei Shi,Zaiyi Liu
発行日 2025-04-03 14:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Towards Computation- and Communication-efficient Computational Pathology はコメントを受け付けていません

Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation

要約

高解像度リモートセンシング画像の意味的セグメンテーションは、土地利用モニタリングや都市計画において重要な役割を果たす。近年のディープラーニングに基づく手法の目覚ましい進歩により、満足のいくセグメンテーション結果を生成することが可能になった。しかし、既存の手法は、様々な土地被覆分布にネットワークパラメータを適応させることや、空間領域と周波数領域の特徴間の相互作用を強化することに、依然として課題を抱えている。これらの課題に対処するため、我々は、適応的周波数・空間特徴相互作用モジュール(AFSIM)と選択的特徴融合モジュール(SFM)の2つの主要コンポーネントを統合した適応的周波数強調ネットワーク(AFENet)を提案する。AFSIMは、入力画像の内容に応じて、高周波特徴量と低周波特徴量を動的に分離・変調する。適応的に2つのマスクを生成し、高周波成分と低周波成分を分離することで、地上物体特徴表現に最適な詳細情報と文脈補足情報を提供します。SFMは、ネットワークの表現能力を高めるために、大域的な文脈と局所的な詳細特徴を選択的に融合する。したがって、周波数と空間特徴間の相互作用がさらに強化される。一般に公開されている3つのデータセットを用いた広範な実験により、提案するAFENetが最先端の手法を凌駕することが実証された。さらに、多様な土地被覆タイプと複雑なシナリオの管理におけるAFSIMとSFMの有効性も検証した。我々のコードはhttps://github.com/oucailab/AFENet。

要約(オリジナル)

Semantic segmentation of high-resolution remote sensing images plays a crucial role in land-use monitoring and urban planning. Recent remarkable progress in deep learning-based methods makes it possible to generate satisfactory segmentation results. However, existing methods still face challenges in adapting network parameters to various land cover distributions and enhancing the interaction between spatial and frequency domain features. To address these challenges, we propose the Adaptive Frequency Enhancement Network (AFENet), which integrates two key components: the Adaptive Frequency and Spatial feature Interaction Module (AFSIM) and the Selective feature Fusion Module (SFM). AFSIM dynamically separates and modulates high- and low-frequency features according to the content of the input image. It adaptively generates two masks to separate high- and low-frequency components, therefore providing optimal details and contextual supplementary information for ground object feature representation. SFM selectively fuses global context and local detailed features to enhance the network’s representation capability. Hence, the interactions between frequency and spatial features are further enhanced. Extensive experiments on three publicly available datasets demonstrate that the proposed AFENet outperforms state-of-the-art methods. In addition, we also validate the effectiveness of AFSIM and SFM in managing diverse land cover types and complex scenarios. Our codes are available at https://github.com/oucailab/AFENet.

arxiv情報

著者 Feng Gao,Miao Fu,Jingchao Cao,Junyu Dong,Qian Du
発行日 2025-04-03 14:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation はコメントを受け付けていません

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation

要約

最近のマルチモーダル大規模言語モデル(MLLM)の進歩により、ビデオ理解における研究が拡大し、主にビデオキャプションや質問応答などの高レベルのタスクに焦点が当てられている。一方、より小規模な研究では、高密度でピクセル精度のセグメンテーションタスクに取り組んでおり、通常、カテゴリガイドまたは参照ベースのオブジェクトセグメンテーションが含まれる。この2つの方向性は、人間レベルのビデオ理解モデルを開発するために不可欠であるが、ベンチマークやアーキテクチャが異なるため、ほとんど別々に発展してきた。本論文では、ViCaSを導入することで、これらの取り組みを統一することを目的とする。ViCaSは、何千もの困難なビデオを含む新しいデータセットであり、各ビデオは、詳細な、人間が書いたキャプションと、フレーズグラウンディングを持つ複数のオブジェクトのための、時間的に一貫性のある、ピクセル精度のマスクでアノテーションされている。本ベンチマークでは、全体的/高レベルの理解と、言語ガイドによるピクセル精度のセグメンテーションの両方についてモデルを評価する。また、慎重に検証された評価尺度を提示し、ベンチマークに取り組むことができる効果的なモデルアーキテクチャを提案する。プロジェクトページ: https://ali2500.github.io/vicas-project/

要約(オリジナル)

Recent advances in multimodal large language models (MLLMs) have expanded research in video understanding, primarily focusing on high-level tasks such as video captioning and question-answering. Meanwhile, a smaller body of work addresses dense, pixel-precise segmentation tasks, which typically involve category-guided or referral-based object segmentation. Although both directions are essential for developing models with human-level video comprehension, they have largely evolved separately, with distinct benchmarks and architectures. This paper aims to unify these efforts by introducing ViCaS, a new dataset containing thousands of challenging videos, each annotated with detailed, human-written captions and temporally consistent, pixel-accurate masks for multiple objects with phrase grounding. Our benchmark evaluates models on both holistic/high-level understanding and language-guided, pixel-precise segmentation. We also present carefully validated evaluation measures and propose an effective model architecture that can tackle our benchmark. Project page: https://ali2500.github.io/vicas-project/

arxiv情報

著者 Ali Athar,Xueqing Deng,Liang-Chieh Chen
発行日 2025-04-03 14:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation はコメントを受け付けていません

A GAN-Enhanced Deep Learning Framework for Rooftop Detection from Historical Aerial Imagery

要約

歴史的な航空写真から屋根を正確に検出することは、長期的な都市開発と人間の居住パターンを分析するために不可欠である。しかしながら、モノクロのアナログ写真は、その限られた空間解像度、色情報の欠如、保存劣化のため、現代の物体検出フレームワークにとってかなりの課題をもたらす。これらの課題に対処するため、本研究では、生成的逆数ネットワーク(GAN)に基づく2段階の画像強調パイプラインを導入する。すなわち、DeOldifyによる画像のカラー化と、Real-ESRGANによる超解像強調である。その後、Faster R-CNN、DETReg、YOLOv11nを含む屋上検出モデルの訓練と評価を行った。その結果、カラー化と超解像を組み合わせることで、検出性能が大幅に向上し、YOLOv11nの平均平均精度(mAP)は85%を超えた。これは、オリジナルの白黒画像と比較して約40%、カラー化のみによって強化された画像と比較して20%の強化を意味する。提案手法は、アーカイブ画像と現代のディープラーニング技術とのギャップを効果的に埋め、歴史的航空写真から建物の足跡をより確実に抽出することを容易にする。我々の結果を再現するためのコードとリソースは、〚github.com/Pengyu-gis/Historical-Aerial-Photos 〛で公開されています。

要約(オリジナル)

Precise detection of rooftops from historical aerial imagery is essential for analyzing long-term urban development and human settlement patterns. Nonetheless, black-and-white analog photographs present considerable challenges for modern object detection frameworks due to their limited spatial resolution, absence of color information, and archival degradation. To address these challenges, this research introduces a two-stage image enhancement pipeline based on Generative Adversarial Networks (GANs): image colorization utilizing DeOldify, followed by super-resolution enhancement with Real-ESRGAN. The enhanced images were subsequently employed to train and evaluate rooftop detection models, including Faster R-CNN, DETReg, and YOLOv11n. The results demonstrate that the combination of colorization with super-resolution significantly enhances detection performance, with YOLOv11n achieving a mean Average Precision (mAP) exceeding 85\%. This signifies an enhancement of approximately 40\% over the original black-and-white images and 20\% over images enhanced solely through colorization. The proposed method effectively bridges the gap between archival imagery and contemporary deep learning techniques, facilitating more reliable extraction of building footprints from historical aerial photographs. Code and resources for reproducing our results are publicly available at \href{https://github.com/Pengyu-gis/Historical-Aerial-Photos}{github.com/Pengyu-gis/Historical-Aerial-Photos}.

arxiv情報

著者 Pengyu Chen,Sicheng Wang,Cuizhen Wang,Senrong Wang,Beiao Huang,Lu Huang,Zhe Zang
発行日 2025-04-03 14:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | A GAN-Enhanced Deep Learning Framework for Rooftop Detection from Historical Aerial Imagery はコメントを受け付けていません

Understanding Depth and Height Perception in Large Visual-Language Models

要約

奥行きや高さの知覚を含む幾何学的理解は、知能の基本であり、環境をナビゲートするために極めて重要である。大規模な視覚言語モデル(VLM)の素晴らしい能力にもかかわらず、視覚知覚の実用的な応用に必要な幾何学的理解をどの程度持っているかは不明なままである。本研究では、これらのモデルの幾何学的理解、特に画像中の物体の奥行きと高さを認識する能力を評価することに焦点を当てる。これに対処するため、2Dと3Dのシナリオを含むベンチマークデータセット群であるGeoMeterを導入し、これらの側面を厳密に評価する。18の最先端のVLMをベンチマークした結果、形状や大きさといった基本的な幾何学的特性の認識には優れているものの、奥行きや高さの認識には一貫して苦戦していることがわかった。我々の分析により、これらの課題は、奥行きと高さの推論能力の欠点と固有のバイアスに起因することが明らかになった。本研究は、実世界での応用に必要な重要な要素として奥行きと高さの知覚を強調することで、幾何学的理解を強化したVLMの開発に道を開くことを目的としている。

要約(オリジナル)

Geometric understanding – including depth and height perception – is fundamental to intelligence and crucial for navigating our environment. Despite the impressive capabilities of large Vision Language Models (VLMs), it remains unclear how well they possess the geometric understanding required for practical applications in visual perception. In this work, we focus on evaluating the geometric understanding of these models, specifically targeting their ability to perceive the depth and height of objects in an image. To address this, we introduce GeoMeter, a suite of benchmark datasets – encompassing 2D and 3D scenarios – to rigorously evaluate these aspects. By benchmarking 18 state-of-the-art VLMs, we found that although they excel in perceiving basic geometric properties like shape and size, they consistently struggle with depth and height perception. Our analysis reveal that these challenges stem from shortcomings in their depth and height reasoning capabilities and inherent biases. This study aims to pave the way for developing VLMs with enhanced geometric understanding by emphasizing depth and height perception as critical components necessary for real-world applications.

arxiv情報

著者 Shehreen Azad,Yash Jain,Rishit Garg,Yogesh S Rawat,Vibhav Vineet
発行日 2025-04-03 15:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Understanding Depth and Height Perception in Large Visual-Language Models はコメントを受け付けていません

BECAME: BayEsian Continual Learning with Adaptive Model MErging

要約

継続的学習(CL)は、破滅的な忘却を軽減しながら、タスク間で段階的に学習することを目指す。CLにおける重要な課題は、安定性(以前の知識の保持)と可塑性(新しいタスクの学習)のバランスをとることである。代表的な勾配射影法は安定性を確保する一方で、可塑性を制限することが多い。モデルマージ技術は有望な解決策を提供するが、先行する方法は通常、経験的仮定と注意深く選択されたハイパーパラメータに依存している。本論文では、安定性と可塑性のトレードオフを強化するモデル併合の可能性を探り、その利点を強調する理論的洞察を提供する。具体的には、ベイズ継続学習原理を用いてマージメカニズムを再定式化し、タスクの多様な特性に適応する最適マージ係数の閉形式を導出する。本アプローチを検証するために、勾配射影と適応的併合の専門知識を相乗させたBECAMEと名付けた2段階のフレームワークを導入する。広範な実験により、我々のアプローチが最先端のCL手法や既存のマージ戦略を凌駕することが示された。

要約(オリジナル)

Continual Learning (CL) strives to learn incrementally across tasks while mitigating catastrophic forgetting. A key challenge in CL is balancing stability (retaining prior knowledge) and plasticity (learning new tasks). While representative gradient projection methods ensure stability, they often limit plasticity. Model merging techniques offer promising solutions, but prior methods typically rely on empirical assumptions and carefully selected hyperparameters. In this paper, we explore the potential of model merging to enhance the stability-plasticity trade-off, providing theoretical insights that underscore its benefits. Specifically, we reformulate the merging mechanism using Bayesian continual learning principles and derive a closed-form solution for the optimal merging coefficient that adapts to the diverse characteristics of tasks. To validate our approach, we introduce a two-stage framework named BECAME, which synergizes the expertise of gradient projection and adaptive merging. Extensive experiments show that our approach outperforms state-of-the-art CL methods and existing merging strategies.

arxiv情報

著者 Mei Li,Yuxiang Lu,Qinyan Dai,Suizhi Huang,Yue Ding,Hongtao Lu
発行日 2025-04-03 15:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | BECAME: BayEsian Continual Learning with Adaptive Model MErging はコメントを受け付けていません

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

要約

多様で物理的にもっともらしい人間とシーンのインタラクション(HSI)を合成することは、コンピュータアニメーションと具現化AIの両方にとって極めて重要である。心強い進歩にもかかわらず、現在の方法は主に、それぞれが特定のインタラクションタスクに特化した個別のコントローラを開発することに焦点を当てています。このことは、複数のスキルの統合を必要とする様々な困難なHSIタスクに取り組む能力を著しく妨げている。この問題に対処するために、我々はTokenHSIを提示する。TokenHSIは、複数のスキルの統合と柔軟な適応が可能な、単一の統一された変換器ベースのポリシーである。重要な洞察は、ヒューマノイドのプロプリオセプションを個別の共有トークンとしてモデル化し、マスキングメカニズムを介して個別のタスクトークンと組み合わせることである。このような統一されたポリシーにより、スキル間の効果的な知識共有が可能となり、マルチタスクトレーニングが容易になる。さらに、我々のポリシーアーキテクチャは可変長の入力をサポートしており、学習したスキルを新しいシナリオに柔軟に適応させることができる。タスクトークナイザを追加訓練することにより、相互作用ターゲットのジオメトリを変更するだけでなく、複雑なタスクに対処するために複数のスキルを調整することもできる。実験により、我々のアプローチが様々なHSIタスクにおいて汎用性、適応性、拡張性を大幅に改善できることが実証された。ウェブサイト:https://liangpan99.github.io/TokenHSI/

要約(オリジナル)

Synthesizing diverse and physically plausible Human-Scene Interactions (HSI) is pivotal for both computer animation and embodied AI. Despite encouraging progress, current methods mainly focus on developing separate controllers, each specialized for a specific interaction task. This significantly hinders the ability to tackle a wide variety of challenging HSI tasks that require the integration of multiple skills, e.g., sitting down while carrying an object. To address this issue, we present TokenHSI, a single, unified transformer-based policy capable of multi-skill unification and flexible adaptation. The key insight is to model the humanoid proprioception as a separate shared token and combine it with distinct task tokens via a masking mechanism. Such a unified policy enables effective knowledge sharing across skills, thereby facilitating the multi-task training. Moreover, our policy architecture supports variable length inputs, enabling flexible adaptation of learned skills to new scenarios. By training additional task tokenizers, we can not only modify the geometries of interaction targets but also coordinate multiple skills to address complex tasks. The experiments demonstrate that our approach can significantly improve versatility, adaptability, and extensibility in various HSI tasks. Website: https://liangpan99.github.io/TokenHSI/

arxiv情報

著者 Liang Pan,Zeshi Yang,Zhiyang Dou,Wenjia Wang,Buzhen Huang,Bo Dai,Taku Komura,Jingbo Wang
発行日 2025-04-03 15:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization はコメントを受け付けていません

Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation

要約

大気乱流は、長距離撮像システムにおける画像劣化の主な原因である。ディープラーニングに基づく乱流緩和(TM)手法は数多く提案されているが、その多くは処理速度が遅く、メモリ消費量が多く、汎化性に乏しい。空間領域では、畳み込み演算子に基づく手法は受容野が限られているため、乱流が必要とする大きな空間依存性を扱うことができない。時間領域では、自己アテンションに依存する方法は、理論的には乱流の幸運な効果を活用することができるが、2次関数的な複雑さのため、多くのフレームに拡張することが困難である。従来のリカレント集約法は並列化の課題に直面している。 (1)選択的状態空間モデル(MambaTM)に基づく乱流緩和ネットワーク。MambaTMは、線形計算複雑性を維持しながら、空間的・時間的次元に渡って各層にグローバルな受容野を提供する。(2) 学習された潜在位相歪み(LPD)。LPDは状態空間モデルを導く。古典的なゼルニケベースの位相歪み表現とは異なり、新しいLPDマップは乱流の実際の影響をユニークに捉え、非投影度を減らすことで劣化を推定するモデルの能力を大幅に向上させる。我々の提案手法は、様々な合成および実世界のTMベンチマークにおいて、現在の最先端ネットワークを凌駕し、推論速度が大幅に向上した。コードはhttp://github.com/xg416/MambaTM。

要約(オリジナル)

Atmospheric turbulence is a major source of image degradation in long-range imaging systems. Although numerous deep learning-based turbulence mitigation (TM) methods have been proposed, many are slow, memory-hungry, and do not generalize well. In the spatial domain, methods based on convolutional operators have a limited receptive field, so they cannot handle a large spatial dependency required by turbulence. In the temporal domain, methods relying on self-attention can, in theory, leverage the lucky effects of turbulence, but their quadratic complexity makes it difficult to scale to many frames. Traditional recurrent aggregation methods face parallelization challenges. In this paper, we present a new TM method based on two concepts: (1) A turbulence mitigation network based on the Selective State Space Model (MambaTM). MambaTM provides a global receptive field in each layer across spatial and temporal dimensions while maintaining linear computational complexity. (2) Learned Latent Phase Distortion (LPD). LPD guides the state space model. Unlike classical Zernike-based representations of phase distortion, the new LPD map uniquely captures the actual effects of turbulence, significantly improving the model’s capability to estimate degradation by reducing the ill-posedness. Our proposed method exceeds current state-of-the-art networks on various synthetic and real-world TM benchmarks with significantly faster inference speed. The code is available at http://github.com/xg416/MambaTM.

arxiv情報

著者 Xingguang Zhang,Nicholas Chimitt,Xijun Wang,Yu Yuan,Stanley H. Chan
発行日 2025-04-03 15:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation はコメントを受け付けていません

Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis

要約

非言語的コミュニケーションは、発話の意味を伝えるのに役立つ意味豊かなジェスチャーで構成されることが多い。このような意味的な共話ジェスチャーを生成することは、既存の神経システムにとって大きな課題であった。既存の神経システムは、リズミカルなビートジェスチャーを生成することはできるが、意味的に意味のあるジェスチャーを生成することに苦戦している。そこで我々は、自然で意味豊かなジェスチャーを生成するために、RAG(Retrieval Augmented Generation)を活用した拡散ベースのジェスチャー生成アプローチであるRAG-Gestureを提案する。我々の神経明示的ジェスチャー生成アプローチは、解釈可能な言語知識に基づいた意味的ジェスチャーを生成するように設計されている。これは、明示的なドメイン知識を用いて、発話ジェスチャーのデータベースから模範的なモーションを検索することで実現される。一旦検索されると、これらの意味的な模範ジェスチャーを、DDIM反転と検索ガイダンスを用いて、拡散ベースのジェスチャー生成パイプラインに注入する。さらに、ガイダンスの制御パラダイムを提案し、各検索挿入が生成シーケンスに与える影響量をユーザが調節できるようにする。我々の比較評価により、最近のジェスチャー生成アプローチに対する我々のアプローチの有効性が実証された。読者は、我々のプロジェクト・ページで結果を探索することが望まれる。

要約(オリジナル)

Non-verbal communication often comprises of semantically rich gestures that help convey the meaning of an utterance. Producing such semantic co-speech gestures has been a major challenge for the existing neural systems that can generate rhythmic beat gestures, but struggle to produce semantically meaningful gestures. Therefore, we present RAG-Gesture, a diffusion-based gesture generation approach that leverages Retrieval Augmented Generation (RAG) to produce natural-looking and semantically rich gestures. Our neuro-explicit gesture generation approach is designed to produce semantic gestures grounded in interpretable linguistic knowledge. We achieve this by using explicit domain knowledge to retrieve exemplar motions from a database of co-speech gestures. Once retrieved, we then inject these semantic exemplar gestures into our diffusion-based gesture generation pipeline using DDIM inversion and retrieval guidance at the inference time without any need of training. Further, we propose a control paradigm for guidance, that allows the users to modulate the amount of influence each retrieval insertion has over the generated sequence. Our comparative evaluations demonstrate the validity of our approach against recent gesture generation approaches. The reader is urged to explore the results on our project page.

arxiv情報

著者 M. Hamza Mughal,Rishabh Dabral,Merel C. J. Scholman,Vera Demberg,Christian Theobalt
発行日 2025-04-03 15:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis はコメントを受け付けていません

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

要約

画像登録は、診断、治療計画、画像誘導介入、および経時的モニタリングのための解剖学的構造の正確な位置合わせを可能にする、医用画像診断の基本である。この研究では、IMPACT(Image Metric with Pretrained model-Agnostic Comparison for Transmodality registration)を紹介する。IMPACTは、ロバストなマルチモーダル画像レジストレーションのために設計された新しい類似性メトリックである。IMPACTは、生の強度、手作りの記述子、またはタスク固有のトレーニングに依存するのではなく、大規模な事前訓練されたセグメンテーションモデルから抽出された深い特徴の比較に基づく意味的類似性尺度を定義する。TotalSegmentator、Segment Anything (SAM)、その他の基礎ネットワークなどのモデルからの表現を活用することで、IMPACTはタスクにとらわれない、トレーニング不要のソリューションを提供し、画像モダリティ間で一般化します。もともとセグメンテーションのためにトレーニングされたこれらの特徴は、強力な空間的対応と意味的整列機能を提供し、レジストレーションに自然に適している。この手法は、アルゴリズムベース(Elastix)と学習ベース(VoxelMorph)の両方のフレームワークにシームレスに統合され、それぞれの長所を活用することができる。IMPACTは、胸部CT/CBCTおよび骨盤MR/CTデータセットを含む5つの困難な3Dレジストレーションタスクで評価された。ターゲット登録エラーやダイス類似度係数を含む定量的メトリクスは、ベースライン手法よりも解剖学的アライメントが一貫して改善されていることを実証した。定性的な解析では、ノイズ、アーチファクト、モダリティのばらつきがある場合でも、提案されたメトリックの頑健性がさらに強調された。汎用性、効率性、および多様なタスクにわたる強力な性能により、IMPACTは臨床と研究の両方の場面でマルチモーダル画像レジストレーションを進めるための強力なソリューションを提供する。

要約(オリジナル)

Image registration is fundamental in medical imaging, enabling precise alignment of anatomical structures for diagnosis, treatment planning, image-guided interventions, and longitudinal monitoring. This work introduces IMPACT (Image Metric with Pretrained model-Agnostic Comparison for Transmodality registration), a novel similarity metric designed for robust multimodal image registration. Rather than relying on raw intensities, handcrafted descriptors, or task-specific training, IMPACT defines a semantic similarity measure based on the comparison of deep features extracted from large-scale pretrained segmentation models. By leveraging representations from models such as TotalSegmentator, Segment Anything (SAM), and other foundation networks, IMPACT provides a task-agnostic, training-free solution that generalizes across imaging modalities. These features, originally trained for segmentation, offer strong spatial correspondence and semantic alignment capabilities, making them naturally suited for registration. The method integrates seamlessly into both algorithmic (Elastix) and learning-based (VoxelMorph) frameworks, leveraging the strengths of each. IMPACT was evaluated on five challenging 3D registration tasks involving thoracic CT/CBCT and pelvic MR/CT datasets. Quantitative metrics, including Target Registration Error and Dice Similarity Coefficient, demonstrated consistent improvements in anatomical alignment over baseline methods. Qualitative analyses further highlighted the robustness of the proposed metric in the presence of noise, artifacts, and modality variations. With its versatility, efficiency, and strong performance across diverse tasks, IMPACT offers a powerful solution for advancing multimodal image registration in both clinical and research settings.

arxiv情報

著者 Valentin Boussot,Cédric Hémon,Jean-Claude Nunes,Jason Downling,Simon Rouzé,Caroline Lafond,Anaïs Barateau,Jean-Louis Dillenseger
発行日 2025-04-03 16:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration はコメントを受け付けていません