Memory-Modular Classification: Learning to Generalize with Memory Replacement

要約

知識の記憶を推論と分離する画像分類のために、新しいメモリモジュラー学習者を提案します。
私たちのモデルは、モデル再トレーニングを必要とせずに、メモリの内容を単に置き換えるだけで、新しいクラスへの効果的な一般化を可能にします。
トレーニング中に世界の知識とタスク固有のスキルの両方を重量にエンコードする従来のモデルとは異なり、モデルはWebがクロールされた画像とテキストデータの外部メモリに知識を保存しています。
推論時に、モデルは入力画像に基づいてメモリから関連するコンテンツを動的に選択し、メモリコンテンツを単に交換するだけで任意のクラスに適応できるようにします。
私たちの学習者が目に見えないクラスの騒々しいWebデータを使用して分類タスクを実行するためのメタラーンが、さまざまな分類シナリオで堅牢なパフォーマンスをもたらす重要な差別化要因。
実験結果は、目に見えないクラスのゼロショット/少ないショット分類、微調整された分類、クラスインクリメンタル分類など、多様な分類タスクを処理する際のアプローチの有望なパフォーマンスと汎用性を示しています。

要約(オリジナル)

We propose a novel memory-modular learner for image classification that separates knowledge memorization from reasoning. Our model enables effective generalization to new classes by simply replacing the memory contents, without the need for model retraining. Unlike traditional models that encode both world knowledge and task-specific skills into their weights during training, our model stores knowledge in the external memory of web-crawled image and text data. At inference time, the model dynamically selects relevant content from the memory based on the input image, allowing it to adapt to arbitrary classes by simply replacing the memory contents. The key differentiator that our learner meta-learns to perform classification tasks with noisy web data from unseen classes, resulting in robust performance across various classification scenarios. Experimental results demonstrate the promising performance and versatility of our approach in handling diverse classification tasks, including zero-shot/few-shot classification of unseen classes, fine-grained classification, and class-incremental classification.

arxiv情報

著者 Dahyun Kang,Ahmet Iscen,Eunchan Jo,Sua Choi,Minsu Cho,Cordelia Schmid
発行日 2025-04-08 13:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Memory-Modular Classification: Learning to Generalize with Memory Replacement はコメントを受け付けていません

CamContextI2V: Context-aware Controllable Video Generation

要約

最近、画像間(I2V)拡散モデルは、発生を導くための画像条件を組み込んだ印象的なシーンの理解と生成品質を実証しています。
ただし、これらのモデルは主に、提供されたコンテキストを超えて拡張せずに静的画像をアニメーション化します。
カメラの軌跡などの追加の制約を導入することで、多様性を高めることができますが、多くの場合視覚的な品質を低下させ、忠実なシーンの表現を必要とするタスクへの適用性を制限します。
複数の画像条件を3D制約と統合してカメラ制御と統合して、グローバルなセマンティクスと細粒の視覚的詳細の両方を濃縮するI2VモデルであるCamContexti2Vを提案します。
これにより、よりコヒーレントでコンテキストを意識するビデオ生成が可能になります。
さらに、効果的なコンテキスト表現に対する一時的な認識の必要性を動機づけます。
Realestate10Kデータセットに関する当社の包括的な研究では、視覚的な品質とカメラの制御性の改善が示されています。
コードとモデルをhttps://github.com/ldenninger/camcontexti2vで公開しています。

要約(オリジナル)

Recently, image-to-video (I2V) diffusion models have demonstrated impressive scene understanding and generative quality, incorporating image conditions to guide generation. However, these models primarily animate static images without extending beyond their provided context. Introducing additional constraints, such as camera trajectories, can enhance diversity but often degrades visual quality, limiting their applicability for tasks requiring faithful scene representation. We propose CamContextI2V, an I2V model that integrates multiple image conditions with 3D constraints alongside camera control to enrich both global semantics and fine-grained visual details. This enables more coherent and context-aware video generation. Moreover, we motivate the necessity of temporal awareness for an effective context representation. Our comprehensive study on the RealEstate10K dataset demonstrates improvements in visual quality and camera controllability. We make our code and models publicly available at: https://github.com/LDenninger/CamContextI2V.

arxiv情報

著者 Luis Denninger,Sina Mokhtarzadeh Azar,Juergen Gall
発行日 2025-04-08 13:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CamContextI2V: Context-aware Controllable Video Generation はコメントを受け付けていません

Style-Editor: Text-driven object-centric style editing

要約

テキスト入力を使用してオブジェクト中心のレベルでスタイル編集をガイドする新しい方法である、スタイルエディターという名前のテキスト駆動型オブジェクト中心スタイルの編集モデルを提示します。
Style-Editorのコアは、パッチごとの共方向(PCD)損失であり、入力テキストと密接に整合する正確なオブジェクト中心の編集用に細心の注意を払って設計されています。
この損失は、テキスト誘導スタイルの方向のパッチの方向性損失と、オブジェクト領域全体に分布を埋め込むためのパッチ分布の一貫性の損失を組み合わせます。
オブジェクト領域全体でシームレスで調和のとれたスタイルの編集を保証します。
この方法の鍵は、テキストを介してオブジェクトの位置を識別するためのテキストマッチングパッチ選択(TMP)と事前固定された領域選択(PRS)モジュールであり、セグメンテーションマスクの必要性を排除します。
最後に、画像の背景の元のスタイルと構造的本質を維持するために、適応的な背景保存(ABP)損失を導入します。
この損失は、動的に識別された背景領域に適用されます。
広範な実験は、視覚的に一貫性のあるテキストに整合したスタイルの編集を作成する際のアプローチの有効性を強調しています。

要約(オリジナル)

We present Text-driven object-centric style editing model named Style-Editor, a novel method that guides style editing at an object-centric level using textual inputs. The core of Style-Editor is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise object-centric editing that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style editing across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image’s background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style editing.

arxiv情報

著者 Jihun Park,Jongmin Gim,Kyoungmin Lee,Seunghun Lee,Sunghoon Im
発行日 2025-04-08 13:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Style-Editor: Text-driven object-centric style editing はコメントを受け付けていません

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

要約

マルチモーダルリモートセンシング画像登録は、データの融合と分析のために、さまざまなセンサーの画像を調整します。
ただし、現在の方法は、画像ペアを大きな非線形放射測定の違いで整列させるときに、モダリティ不変の特徴を抽出できないことがよくあります。
この問題に対処するために、マルチモーダル画像のギャップを排除するために、新しいマルチモーダル画像登録フレームワークベースの画像からイメージへの翻訳であるOSDM-MREGを提案します。
第一に、マルチモーダル画像を統一ドメインに変換するために、新しいワンステップの標的誘導条件除去拡散性モデル(UTGOS-CDDPM)を提案します。
推論段階では、従来の条件付きDDPMは、多数の反復により翻訳されたソース画像を生成し、画像登録タスクを大幅に遅くします。
この問題に対処するために、翻訳されたソース画像の低周波機能の生成を促進するために、整理されていないTragetイメージを条件として使用します。
さらに、トレーニング段階では、翻訳された画像を直接予測する逆プロセスを追加して、翻訳されたソース画像をテスト段階で1つのステップで生成できるようにします。
さらに、翻訳されたソース画像の詳細機能を監督するために、翻訳された画像とグラウンドトゥルース画像の高周波機能の違いに焦点を当てた新しい知覚的損失を提案します。
最後に、マルチモーダルマルチスケール画像登録ネットワーク(MM-REG)は、提案されたマルチモーダル機能融合戦略により、ユニモーダル画像とマルチモーダル画像のマルチモーダル機能を融合します。
実験は、特にSAR光学的画像ペアのさまざまなマルチモーダル登録タスクにわたる優れた精度と効率を示しています。

要約(オリジナル)

Multimodal remote sensing image registration aligns images from different sensors for data fusion and analysis. However, current methods often fail to extract modality-invariant features when aligning image pairs with large nonlinear radiometric differences. To address this issues, we propose OSDM-MReg, a novel multimodal image registration framework based image-to-image translation to eliminate the gap of multimodal images. Firstly, we propose a novel one-step unaligned target-guided conditional denoising diffusion probabilistic models(UTGOS-CDDPM)to translate multimodal images into a unified domain. In the inference stage, traditional conditional DDPM generate translated source image by a large number of iterations, which severely slows down the image registration task. To address this issues, we use the unaligned traget image as a condition to promote the generation of low-frequency features of the translated source image. Furthermore, during the training stage, we add the inverse process of directly predicting the translated image to ensure that the translated source image can be generated in one step during the testing stage. Additionally, to supervised the detail features of translated source image, we propose a new perceptual loss that focuses on the high-frequency feature differences between the translated and ground-truth images. Finally, a multimodal multiscale image registration network (MM-Reg) fuse the multimodal feature of the unimodal images and multimodal images by proposed multimodal feature fusion strategy. Experiments demonstrate superior accuracy and efficiency across various multimodal registration tasks, particularly for SAR-optical image pairs.

arxiv情報

著者 Xiaochen Wei,Weiwei Guo,Wenxian Yu,Feiming Wei,Dongying Li
発行日 2025-04-08 13:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model はコメントを受け付けていません

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks

要約

人間の顔データは、顔認識、年齢の推定、性別の識別、感情分析、人種分類など、分類の問題に取り組むための貴重な可能性を提供します。
ただし、最近のプライバシー規制、特にEUの一般的なデータ保護規則は、研究における人間の画像の収集と使用法を制限しています。
その結果、データ収集の方法とプライバシーの懸念が不十分なため、以前に公開されたいくつかのフェイスデータセットがインターネットから削除されました。
合成データセットは代替として提案されていますが、実際のデータ分布を正確に表すことには及ばない。
さらに、ほとんどの既存のデータセットには、単一のタスクのみにラベルが付けられているため、汎用性が制限されます。
これらの制限に対処するために、レース、性別、年齢による顔認識や分類など、さまざまなタスク用に設計されたマルチタスクフェイス(MTF)データセットを導入し、生成ネットワークのトレーニングを支援します。
MTFデータセットには、640人の132,816個の画像を含む非キュレーションセットと240人の5,246個の画像を含む手動キュレーションセットの2つのバージョンがあります。
両方のデータセットは、著作権規制に完全に準拠して公開されている有名人の画像を使用して、倫理的に調達されました。
データ収集と処理の詳細な説明を提供するとともに、前述の分類タスク全体で5つの深い学習モデルをトレーニングする際のMTFデータセットの有効性を評価しました。
両方のMTFデータセットには、次のリンクからアクセスできます。
https://github.com/ramihaf/mtf_data_set

要約(オリジナル)

Human facial data offers valuable potential for tackling classification problems, including face recognition, age estimation, gender identification, emotion analysis, and race classification. However, recent privacy regulations, particularly the EU General Data Protection Regulation, have restricted the collection and usage of human images in research. As a result, several previously published face data sets have been removed from the internet due to inadequate data collection methods and privacy concerns. While synthetic data sets have been suggested as an alternative, they fall short of accurately representing the real data distribution. Additionally, most existing data sets are labeled for just a single task, which limits their versatility. To address these limitations, we introduce the Multi-Task Face (MTF) data set, designed for various tasks, including face recognition and classification by race, gender, and age, as well as for aiding in training generative networks. The MTF data set comes in two versions: a non-curated set containing 132,816 images of 640 individuals and a manually curated set with 5,246 images of 240 individuals, meticulously selected to maximize their classification quality. Both data sets were ethically sourced, using publicly available celebrity images in full compliance with copyright regulations. Along with providing detailed descriptions of data collection and processing, we evaluated the effectiveness of the MTF data set in training five deep learning models across the aforementioned classification tasks, achieving up to 98.88\% accuracy for gender classification, 95.77\% for race classification, 97.60\% for age classification, and 79.87\% for face recognition with the ConvNeXT model. Both MTF data sets can be accessed through the following link. https://github.com/RamiHaf/MTF_data_set

arxiv情報

著者 Rami Haffar,David Sánchez,Josep Domingo-Ferrer
発行日 2025-04-08 13:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks はコメントを受け付けていません

Enhanced Anomaly Detection for Capsule Endoscopy Using Ensemble Learning Strategies

要約

カプセル内視鏡検査は、胃腸管の画像をキャプチャし、標準的な内視鏡で調査された場合に隠されたままになる可能性のある疾患のスクリーニングを取得する方法です。
ビデオカプセルのサイズが限られているため、AIモデルをカプセルに直接埋め込むには、モデルサイズを慎重に検討する必要があるため、この分野での異常検出が複雑になります。
さらに、このドメインで利用可能なデータの希少性は、効果的な異常検出を達成するための継続的な課題となります。
したがって、この作業は、ビデオカプセル内視鏡検査の異常検出タスクにおけるこの課題に対処するためのアンサンブル戦略を導入し、トレーニング段階と推論段階の両方で少数の個々のニューラルネットワークのみを必要とします。
アンサンブル学習は、複数の独立した訓練されたニューラルネットワークの予測を組み合わせています。
これは、機械学習モデルの精度と堅牢性の両方を高めるのに非常に効果的であることが示されています。
ただし、これには、メモリの使用量が増加し、計算努力が増加するための犠牲が払われ、多くの実際のアプリケーションではすぐに法外になります。
同じトレーニングアルゴリズムを個々のネットワークに適用する代わりに、各ネットワークをトレーニングするために、異常検出フィールドから描かれたさまざまな損失関数を使用して提案します。
この方法は、ビデオカプセル内視鏡画像の2つの最大の公開データセット、GalarとKvasir-Capsuleデータセットで検証されています。
KVasir-Capsuleで76.86%のAUCスコア、GalarデータセットでAUCスコアは76.98%を達成しています。
私たちのアプローチは、すべてのモデルのパラメーターが大幅に少ない現在のベースラインよりも優れています。これは、カプセル内視鏡検査に人工知能を組み込むための重要なステップです。

要約(オリジナル)

Capsule endoscopy is a method to capture images of the gastrointestinal tract and screen for diseases which might remain hidden if investigated with standard endoscopes. Due to the limited size of a video capsule, embedding AI models directly into the capsule demands careful consideration of the model size and thus complicates anomaly detection in this field. Furthermore, the scarcity of available data in this domain poses an ongoing challenge to achieving effective anomaly detection. Thus, this work introduces an ensemble strategy to address this challenge in anomaly detection tasks in video capsule endoscopies, requiring only a small number of individual neural networks during both the training and inference phases. Ensemble learning combines the predictions of multiple independently trained neural networks. This has shown to be highly effective in enhancing both the accuracy and robustness of machine learning models. However, this comes at the cost of higher memory usage and increased computational effort, which quickly becomes prohibitive in many real-world applications. Instead of applying the same training algorithm to each individual network, we propose using various loss functions, drawn from the anomaly detection field, to train each network. The methods are validated on the two largest publicly available datasets for video capsule endoscopy images, the Galar and the Kvasir-Capsule dataset. We achieve an AUC score of 76.86% on the Kvasir-Capsule and an AUC score of 76.98% on the Galar dataset. Our approach outperforms current baselines with significantly fewer parameters across all models, which is a crucial step towards incorporating artificial intelligence into capsule endoscopies.

arxiv情報

著者 Julia Werner,Christoph Gerum,Jorg Nick,Maxime Le Floch,Franz Brinkmann,Jochen Hampe,Oliver Bringmann
発行日 2025-04-08 13:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhanced Anomaly Detection for Capsule Endoscopy Using Ensemble Learning Strategies はコメントを受け付けていません

Self-Supervised Siamese Autoencoders

要約

完全に監視されたモデルとは対照的に、自己教師の表現学習は、ラベルを付けるためにデータのほんの一部のみを必要とし、多くの場合、同じまたはさらに高い下流のパフォーマンスを達成します。
目標は、自己監視されたタスクで深いニューラルネットワークを事前に訓練し、その後生の入力データから意味のある機能を抽出できるようにすることです。
以前は、自動エンコーダーとシャムネットワークは、画像分類などのタスクの特徴抽出器として首尾よく採用されていました。
ただし、どちらにも個々の欠点と利点があります。
この論文では、Sidae(Siamese Denoising autoencoder)と呼ばれる新しい方法を提案することにより、それらの相補的強度を組み合わせます。
画像分類のダウンストリームタスクを使用して、モデルが複数のデータセットとシナリオにまたがる2つの自己監視ベースラインを上回ることを示します。
重要なことに、これには、少量のラベル付きデータのみが利用可能な条件が含まれます。
経験的には、シャムのコンポーネントはより影響を与えますが、それでもパフォーマンスを改善するために除去自動エンコーダーが必要です。

要約(オリジナル)

In contrast to fully-supervised models, self-supervised representation learning only needs a fraction of data to be labeled and often achieves the same or even higher downstream performance. The goal is to pre-train deep neural networks on a self-supervised task, making them able to extract meaningful features from raw input data afterwards. Previously, autoencoders and Siamese networks have been successfully employed as feature extractors for tasks such as image classification. However, both have their individual shortcomings and benefits. In this paper, we combine their complementary strengths by proposing a new method called SidAE (Siamese denoising autoencoder). Using an image classification downstream task, we show that our model outperforms two self-supervised baselines across multiple data sets and scenarios. Crucially, this includes conditions in which only a small amount of labeled data is available. Empirically, the Siamese component has more impact, but the denoising autoencoder is nevertheless necessary to improve performance.

arxiv情報

著者 Friederike Baier,Sebastian Mair,Samuel G. Fadel
発行日 2025-04-08 14:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Self-Supervised Siamese Autoencoders はコメントを受け付けていません

A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections

要約

近代的な輸送システムの急速な発展と物流量の指数関数的な成長により、インテリジェントなX線ベースのセキュリティ検査システムが公共の安全に重要な役割を果たしています。
シングルビューX線装置は広く展開されていますが、強い視点依存性と不十分な特徴表現のために、複雑なスタッキングシナリオで密輸品を正確に識別するのに苦労しています。
これに対処するために、デュアルビューX線セキュリティ検査画像の分類に合わせて調整された革新的なマルチスケールインタラクティブ機能Fusion Frameworkを提案します。
フレームワークは、3つのコアモジュールで構成されています。周波数ドメインインタラクションモジュール(FDIM)は、フーリエ変換を介して周波数ドメイン機能を強化します。
マルチスケールのクロスビュー機能エンハンスメント(MSCFE)は、特徴の相互作用を強化するためのクロスビューの注意メカニズムを活用します。
畳み込み注意融合モジュール(CAFM)は、チャネルの注意を深さに分離する畳み込みと統合することにより、特徴を効率的に融合させます。
実験結果は、私たちの方法が、特に咬合とオブジェクトスタッキングを備えた複雑なシナリオで優れている、複数のバックボーンアーキテクチャにわたって既存の最先端のアプローチを上回ることを示しています。

要約(オリジナル)

With the rapid development of modern transportation systems and the exponential growth of logistics volumes, intelligent X-ray-based security inspection systems play a crucial role in public safety. Although single-view X-ray equipment is widely deployed, it struggles to accurately identify contraband in complex stacking scenarios due to strong viewpoint dependency and inadequate feature representation. To address this, we propose an innovative multi-scale interactive feature fusion framework tailored for dual-view X-ray security inspection image classification. The framework comprises three core modules: the Frequency Domain Interaction Module (FDIM) enhances frequency-domain features through Fourier transform; the Multi-Scale Cross-View Feature Enhancement (MSCFE) leverages cross-view attention mechanisms to strengthen feature interactions; and the Convolutional Attention Fusion Module (CAFM) efficiently fuses features by integrating channel attention with depthwise-separable convolutions. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches across multiple backbone architectures, particularly excelling in complex scenarios with occlusions and object stacking.

arxiv情報

著者 Shilong Hong,Yanzhou Zhou,Weichao Xu
発行日 2025-04-08 14:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Multi-Scale Feature Fusion Framework Integrating Frequency Domain and Cross-View Attention for Dual-View X-ray Security Inspections はコメントを受け付けていません

MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos

要約

大規模なエゴセントリックビデオデータセットは、幅広いシナリオにわたって多様な人間の活動をキャプチャし、人間がオブジェクト、特に細かい器用な制御を必要とするオブジェクトとの相互作用について豊かで詳細な洞察を提供します。
正確なコントロールを備えたこのような複雑で器用なスキルは、多くのロボット操作タスクにとって非常に重要ですが、ロボット操作に対する従来のデータ駆動型アプローチでは不十分に対処されていることがよくあります。
このギャップに対処するために、大規模なエゴセントリックビデオデータセットから学んだ操作操作を活用して、器用なロボット操作タスクのポリシー学習を改善します。
Mapleは、効率的なポリシー学習と多様な複雑な操作タスクのより良いパフォーマンスを可能にするために、豊富な操作前のプライアーを悪用する器用なロボット操作の新しい方法です。
具体的には、ハンドオブジェクトの連絡先の瞬間にハンドオブジェクトの接点と詳細なハンドポーズを予測し、学習された機能を使用して、ダウンストリーム操作タスクのポリシーをトレーニングします。
実験結果は、既存のシミュレーションベンチマーク全体でメープルの有効性を示しています。また、新しく設計された一連の挑戦的なシミュレーションタスクを実証します。
メープルの利点は、器用なロボットハンドを使用した現実世界の実験でさらに強調されていますが、シミュレーションと実世界の実験の両方で同時の評価は、以前の研究では目立たないままです。

要約(オリジナル)

Large-scale egocentric video datasets capture diverse human activities across a wide range of scenarios, offering rich and detailed insights into how humans interact with objects, especially those that require fine-grained dexterous control. Such complex, dexterous skills with precise controls are crucial for many robotic manipulation tasks, yet are often insufficiently addressed by traditional data-driven approaches to robotic manipulation. To address this gap, we leverage manipulation priors learned from large-scale egocentric video datasets to improve policy learning for dexterous robotic manipulation tasks. We present MAPLE, a novel method for dexterous robotic manipulation that exploits rich manipulation priors to enable efficient policy learning and better performance on diverse, complex manipulation tasks. Specifically, we predict hand-object contact points and detailed hand poses at the moment of hand-object contact and use the learned features to train policies for downstream manipulation tasks. Experimental results demonstrate the effectiveness of MAPLE across existing simulation benchmarks, as well as a newly designed set of challenging simulation tasks, which require fine-grained object control and complex dexterous skills. The benefits of MAPLE are further highlighted in real-world experiments using a dexterous robotic hand, whereas simultaneous evaluation across both simulation and real-world experiments has remained underexplored in prior work.

arxiv情報

著者 Alexey Gavryushin,Xi Wang,Robert J. S. Malate,Chenyu Yang,Xiangyi Jia,Shubh Goel,Davide Liconti,René Zurbrügg,Robert K. Katzschmann,Marc Pollefeys
発行日 2025-04-08 14:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos はコメントを受け付けていません

MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer

要約

胎児超音波(US)ビデオにおける正確な標準平面取得は、胎児の成長評価、異常検出、および臨床ガイドラインの遵守に重要です。
ただし、手動で標準のフレームを選択することは時間がかかり、ゾン内およびゾノグラファー間の変動性が発生しやすくなります。
既存の方法は、主に標準フレームをキャプチャし、異なる解剖学にわたって入力フレームを分類する画像ベースのアプローチに依存しています。
これは、ビデオ獲得の動的な性質とその解釈を無視します。
これらの課題に対処するために、視覚的なクエリベースのビデオクリップローカリゼーション(VQ-VCL)メソッドであるマルチティアクラスアウェアトークントランス(MCAT)を導入して、ソノグラフ人が迅速な米国のスイープをキャプチャできるようにします。
その後、分析したい解剖学の視覚的なクエリを提供することにより、MCATはその解剖学の標準フレームを含むビデオクリップを返し、潜在的な異常の徹底的なスクリーニングを促進します。
2つの超音波ビデオデータセットと、EGO4Dに基づく自然画像VQ-VCLデータセットでMCATを評価します。
私たちのモデルは、96%少ないトークンを使用して、超音波データセットで10%および13%MIOU、EGO4Dデータセットで5.35%MIOUよりも最先端の方法よりも優れています。
MCATの効率と精度は、特に低中所得国(LMIC)において、公衆衛生に大きな潜在的な意味を持ち、標準的な飛行機の獲得を合理化し、米国ベースのスクリーニング、診断、およびソノグラフィーがより多くの患者を調べることができるようにすることにより、出生前ケアを強化する可能性があります。

要約(オリジナル)

Accurate standard plane acquisition in fetal ultrasound (US) videos is crucial for fetal growth assessment, anomaly detection, and adherence to clinical guidelines. However, manually selecting standard frames is time-consuming and prone to intra- and inter-sonographer variability. Existing methods primarily rely on image-based approaches that capture standard frames and then classify the input frames across different anatomies. This ignores the dynamic nature of video acquisition and its interpretation. To address these challenges, we introduce Multi-Tier Class-Aware Token Transformer (MCAT), a visual query-based video clip localization (VQ-VCL) method, to assist sonographers by enabling them to capture a quick US sweep. By then providing a visual query of the anatomy they wish to analyze, MCAT returns the video clip containing the standard frames for that anatomy, facilitating thorough screening for potential anomalies. We evaluate MCAT on two ultrasound video datasets and a natural image VQ-VCL dataset based on Ego4D. Our model outperforms state-of-the-art methods by 10% and 13% mIoU on the ultrasound datasets and by 5.35% mIoU on the Ego4D dataset, using 96% fewer tokens. MCAT’s efficiency and accuracy have significant potential implications for public health, especially in low- and middle-income countries (LMICs), where it may enhance prenatal care by streamlining standard plane acquisition, simplifying US-based screening, diagnosis and allowing sonographers to examine more patients.

arxiv情報

著者 Divyanshu Mishra,Pramit Saha,He Zhao,Netzahualcoyotl Hernandez-Cruz,Olga Patey,Aris Papageorghiou,J. Alison Noble
発行日 2025-04-08 14:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer はコメントを受け付けていません