MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition

要約

最近の少ないショットアクション認識(FSAR)メソッドは、通常、学習した識別機能のセマンティックマッチングを実行して、有望なパフォーマンスを実現します。
ただし、ほとんどのFSARメソッドは、シングルスケール(例:フレームレベル、セグメントレベルなど)に焦点を当てています。これは、同じセマンティックで人間の行動が異なる速度で表示される可能性があることを無視します。
この目的のために、マルチ速度レベルでセマンティック関連のアクション機能を徐々に学習および整列させるために、新しいマルチ速度プログレッシブアライメント(MVPショット)フレームワークを開発します。
具体的には、マルチ速度機能アラインメント(MVFA)モジュールは、さまざまな速度スケールを持つサポートビデオとクエリビデオからの機能の類似性を測定し、すべての類似性スコアを残留ファッションでマージするように設計されています。
基礎となるモーションセマンティックから逸​​脱している複数の速度機能を回避するために、提案されたプログレッシブセマンティックテイロードインタラクション(PSTI)モジュールは、さまざまな速度でのチャネルおよび時間ドメインの機能相互作用を介して速度依存テキスト情報をビデオ機能に注入します。
上記の2つのモジュールは、互いを補償して、少数のショット設定の下でより正確なクエリサンプル予測を行います。
実験結果は、私たちの方法が、複数の標準の少数のベンチマーク(つまり、HMDB51、UCF101、速度論、およびSSV2-Small)の現在の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Recent few-shot action recognition (FSAR) methods typically perform semantic matching on learned discriminative features to achieve promising performance. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to make more accurate query sample predictions under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).

arxiv情報

著者 Hongyu Qu,Rui Yan,Xiangbo Shu,Hailiang Gao,Peng Huang,Guo-Sen Xie
発行日 2025-03-05 13:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition はコメントを受け付けていません

CarGait: Cross-Attention based Re-ranking for Gait recognition

要約

歩行認識は、歩行パターンに基づいて個人を識別するコンピュータービジョンタスクです。
歩行認識パフォーマンスは、候補者のギャラリーをランク付けし、上位$ $ k $で精度を測定することにより、一般的に評価されます。
既存のモデルは通常、シングルステージにあります。つまり、単一のグローバルな機能表現を使用して、ギャラリーでプローブの最近隣人を検索します。
これらのモデルは通常、$ $ k $の予測内で正しいアイデンティティを取得することに優れていますが、トップの短リストにハードネガティブが現れ、最高ランクでのパフォーマンスが比較的低い(ランク1など)、苦労します。
このホワイトペーパーでは、歩行認識のための交差アテナテンションの再ランク方法であるCargaitを紹介します。これには、歩行ストリップ間の交差測定による歩行シーケンスのペア間の細かい相関関係をレバレッジする最高$ k $リストを並べ替えます。
この再ランクスキームは、既存のシングルステージモデルに適応して、最終結果を強化できます。
3つの一般的な歩行データセット、GAIT3D、GREW、およびOU-MVLP、および7つの異なる歩行モデルでの広範な実験により、Cargaitの機能を実証し、ランク1,5の精度、既存の再ランクメソッドよりも優れた結果、および強力なベースラインの一貫した改善を示します。

要約(オリジナル)

Gait recognition is a computer vision task that identifies individuals based on their walking patterns. Gait recognition performance is commonly evaluated by ranking a gallery of candidates and measuring the accuracy at the top Rank-$K$. Existing models are typically single-staged, i.e. searching for the probe’s nearest neighbors in a gallery using a single global feature representation. Although these models typically excel at retrieving the correct identity within the top-$K$ predictions, they struggle when hard negatives appear in the top short-list, leading to relatively low performance at the highest ranks (e.g., Rank-1). In this paper, we introduce CarGait, a Cross-Attention Re-ranking method for gait recognition, that involves re-ordering the top-$K$ list leveraging the fine-grained correlations between pairs of gait sequences through cross-attention between gait strips. This re-ranking scheme can be adapted to existing single-stage models to enhance their final results. We demonstrate the capabilities of CarGait by extensive experiments on three common gait datasets, Gait3D, GREW, and OU-MVLP, and seven different gait models, showing consistent improvements in Rank-1,5 accuracy, superior results over existing re-ranking methods, and strong baselines.

arxiv情報

著者 Gavriel Habib,Noa Barzilay,Or Shimshi,Rami Ben-Ari,Nir Darshan
発行日 2025-03-05 13:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CarGait: Cross-Attention based Re-ranking for Gait recognition はコメントを受け付けていません

Mineral segmentation using electron microscope images and spectral sampling through multimodal graph neural networks

要約

マルチモーダルスキャン電子顕微鏡(SEM)画像のデータ融合に基づいて、セグメンテーションのための新しいグラフニューラルネットワークベースの方法を提案します。
ほとんどの場合、SEMを使用して取得した後方散乱電子(BSE)画像には、鉱物セグメンテーションに十分な情報が含まれていません。
したがって、イメージングは​​、多くの場合、化学組成に関する非常に正確な情報を提供するが、獲得に時間がかかるように、ポイントワイズエネルギー分散型X線分光法(EDS)スペクトル測定で補完されます。
これにより、ミネラルセグメンテーションのためにBSE画像と組み合わせて、スパーススペクトルデータの使用が動機付けられます。
スペクトルデータの構造化されていない性質により、ほとんどの従来の画像融合技術は、BSE-EDS融合に適していません。
グラフニューラルネットワークを使用して2つのモダリティを融合し、鉱物相を同時にセグメント化することを提案します。
我々の結果は、わずか1%のBSEピクセルのEDSデータを提供すると正確なセグメンテーションを生成し、ミネラルサンプルの迅速な分析を可能にすることを示しています。
提案されたデータ融合パイプラインは多用途であり、画像データとポイントごとの測定を含む他のドメインに適合させることができます。

要約(オリジナル)

We propose a novel Graph Neural Network-based method for segmentation based on data fusion of multimodal Scanning Electron Microscope (SEM) images. In most cases, Backscattered Electron (BSE) images obtained using SEM do not contain sufficient information for mineral segmentation. Therefore, imaging is often complemented with point-wise Energy-Dispersive X-ray Spectroscopy (EDS) spectral measurements that provide highly accurate information about the chemical composition but that are time-consuming to acquire. This motivates the use of sparse spectral data in conjunction with BSE images for mineral segmentation. The unstructured nature of the spectral data makes most traditional image fusion techniques unsuitable for BSE-EDS fusion. We propose using graph neural networks to fuse the two modalities and segment the mineral phases simultaneously. Our results demonstrate that providing EDS data for as few as 1% of BSE pixels produces accurate segmentation, enabling rapid analysis of mineral samples. The proposed data fusion pipeline is versatile and can be adapted to other domains that involve image data and point-wise measurements.

arxiv情報

著者 Samuel Repka,Bořek Reich,Fedor Zolotarev,Tuomas Eerola,Pavel Zemčík
発行日 2025-03-05 13:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mineral segmentation using electron microscope images and spectral sampling through multimodal graph neural networks はコメントを受け付けていません

Multimodal Action Quality Assessment

要約

アクション品質評価(AQA)は、アクションがどれだけうまく実行されるかを評価することです。
以前の作品は、オーディオ情報を無視して、視覚情報の使用のみによってモデリングを実行します。
AQAは視覚情報に大きく依存していますが、オーディオは、特にフィギュアスケートやリズミカルな体操などのバックグラウンドミュージックを備えたスポーツの場合、スコア回帰精度を改善するための有用な補完的な情報であると主張します。
AQA、つまりRGB、光フロー、オーディオ情報のマルチモーダル情報を活用するために、モダリティ固有の情報と混合モダリティ情報を個別にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(PAMFN)を提案します。
私たちのモデルは、モダリティ固有の情報を独立して探求する3つのモダリティ固有のブランチと、モダリティ固有の分岐からモダリティ固有の情報を徐々に集約する混合モダリティブランチで構成されています。
モダリティ固有のブランチと混合モダリティブランチの間の橋渡しを構築するために、3つの新しいモジュールが提案されています。
まず、モダリティ固有の機能デコーダーモジュールは、モダリティ固有の情報を混合モダリティブランチに選択的に転送するように設計されています。
第二に、モダリティ固有の情報間の相互作用を調査するとき、不変のマルチモーダル融合ポリシーを使用すると、アクションのさまざまな部分の潜在的な多様性を考慮に入れるために、最適ではない結果につながる可能性があると主張します。
したがって、アクションのさまざまな部分で適応型マルチモーダル融合ポリシーを学習するための適応融合モジュールが提案されています。
このモジュールは、さまざまなマルチモーダル融合戦略を探索するためのいくつかのフュージョンネットと、どのフュージョンネットが有効になっているかを決定するためのポリシネットで構成されています。
第三に、Cross-Modal機能デコーダーと呼ばれるモジュールは、適応融合モジュールによって生成されたクロスモーダル機能を混合モダリティブランチに転送するように設計されています。

要約(オリジナル)

Action quality assessment (AQA) is to assess how well an action is performed. Previous works perform modelling by only the use of visual information, ignoring audio information. We argue that although AQA is highly dependent on visual information, the audio is useful complementary information for improving the score regression accuracy, especially for sports with background music, such as figure skating and rhythmic gymnastics. To leverage multimodal information for AQA, i.e., RGB, optical flow and audio information, we propose a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models modality-specific information and mixed-modality information. Our model consists of with three modality-specific branches that independently explore modality-specific information and a mixed-modality branch that progressively aggregates the modality-specific information from the modality-specific branches. To build the bridge between modality-specific branches and the mixed-modality branch, three novel modules are proposed. First, a Modality-specific Feature Decoder module is designed to selectively transfer modality-specific information to the mixed-modality branch. Second, when exploring the interaction between modality-specific information, we argue that using an invariant multimodal fusion policy may lead to suboptimal results, so as to take the potential diversity in different parts of an action into consideration. Therefore, an Adaptive Fusion Module is proposed to learn adaptive multimodal fusion policies in different parts of an action. This module consists of several FusionNets for exploring different multimodal fusion strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a module called Cross-modal Feature Decoder is designed to transfer cross-modal features generated by Adaptive Fusion Module to the mixed-modality branch.

arxiv情報

著者 Ling-An Zeng,Wei-Shi Zheng
発行日 2025-03-05 14:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.SP, I.2.10 | Multimodal Action Quality Assessment はコメントを受け付けていません

Do ImageNet-trained models learn shortcuts? The impact of frequency shortcuts on generalization

要約

周波数のショートカットは、正しい分類のために大きく依存している特定の周波数パターンを指します。
以前の研究では、小さな画像データセットでトレーニングされたモデルがそのようなショートカットを悪用し、一般化パフォーマンスを損なう可能性があることが示されています。
ただし、周波数ショートカットを識別する既存の方法には、高価な計算が必要であり、大きなデータセットでトレーニングされたモデルを分析するために非現実的になります。
この作業では、より大規模に周波数ショートカットをより効率的に分析する最初のアプローチを提案します。
CNNモデルとトランスモデルの両方が、Imagenetで周波数ショートカットを学習することを示します。
また、周波数のショートカットソリューションは、テクスチャ情報を大部分保持する外部分布(OOD)テストセットで優れたパフォーマンスをもたらす可能性があることを公開します。
ただし、これらのショートカットは、主にテクスチャパターンと整合しており、レンディションベースのOODテストセットのモデルの一般化を妨げます。
これらの観察結果は、現在のOOD評価がモデルの一般化に対する周波数ショートカットの影響をしばしば見落としていることを示唆しています。
したがって、将来のベンチマークは、これらのショートカットを明示的に評価し、会計処理して、より広い範囲のOODシナリオに一般化するモデルを構築することから恩恵を受ける可能性があります。

要約(オリジナル)

Frequency shortcuts refer to specific frequency patterns that models heavily rely on for correct classification. Previous studies have shown that models trained on small image datasets often exploit such shortcuts, potentially impairing their generalization performance. However, existing methods for identifying frequency shortcuts require expensive computations and become impractical for analyzing models trained on large datasets. In this work, we propose the first approach to more efficiently analyze frequency shortcuts at a larger scale. We show that both CNN and transformer models learn frequency shortcuts on ImageNet. We also expose that frequency shortcut solutions can yield good performance on out-of-distribution (OOD) test sets which largely retain texture information. However, these shortcuts, mostly aligned with texture patterns, hinder model generalization on rendition-based OOD test sets. These observations suggest that current OOD evaluations often overlook the impact of frequency shortcuts on model generalization. Future benchmarks could thus benefit from explicitly assessing and accounting for these shortcuts to build models that generalize across a broader range of OOD scenarios.

arxiv情報

著者 Shunxin Wang,Raymond Veldhuis,Nicola Strisciuglio
発行日 2025-03-05 14:03:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do ImageNet-trained models learn shortcuts? The impact of frequency shortcuts on generalization はコメントを受け付けていません

ArtNVG: Content-Style Separated Artistic Neighboring-View Gaussian Stylization

要約

ターゲットスタイルを備えた3Dシーンの映画やゲーム業界からの需要が高まるにつれて、高度な3Dスタイリゼーション技術の重要性が増加します。
ただし、最近の方法は、様式化されたシーン全体で色とテクスチャの局所的な一貫性を維持するのに苦労しています。これは、美的一貫性を維持するために不可欠です。
この問題を解決するために、このペーパーでは、リファレンススタイルの画像を活用することで様式化された3Dシーンを効率的に生成する革新的な3DスタイリゼーションフレームワークであるArtNVGを紹介します。
3Dガウススプラッティング(3DG)に基づいて構築されたARTNVGは、高い再建の品質を支持しながら、迅速な最適化とレンダリングを実現します。
私たちのフレームワークは、コンテンツスタイルの分離制御と注意ベースの隣接ビューアライメントという2つの重要なテクニックを組み込むことにより、高品質の3Dスタイル化を実現します。
コンテンツスタイルの分離制御は、CSGOモデルとタイル制御ネットを使用してコンテンツとスタイルコントロールを分離し、情報の漏れのリスクを減らします。
同時に、注意ベースの隣接ビューアライメントにより、隣接するビュー全体でローカルな色とテクスチャの一貫性が保証され、視覚品質が大幅に向上します。
広範な実験では、ARTNVGが既存の方法を上回り、コンテンツの保存、スタイルの調整、局所的な一貫性をもたらす優れた結果を提供することを検証します。

要約(オリジナル)

As demand from the film and gaming industries for 3D scenes with target styles grows, the importance of advanced 3D stylization techniques increases. However, recent methods often struggle to maintain local consistency in color and texture throughout stylized scenes, which is essential for maintaining aesthetic coherence. To solve this problem, this paper introduces ArtNVG, an innovative 3D stylization framework that efficiently generates stylized 3D scenes by leveraging reference style images. Built on 3D Gaussian Splatting (3DGS), ArtNVG achieves rapid optimization and rendering while upholding high reconstruction quality. Our framework realizes high-quality 3D stylization by incorporating two pivotal techniques: Content-Style Separated Control and Attention-based Neighboring-View Alignment. Content-Style Separated Control uses the CSGO model and the Tile ControlNet to decouple the content and style control, reducing risks of information leakage. Concurrently, Attention-based Neighboring-View Alignment ensures consistency of local colors and textures across neighboring views, significantly improving visual quality. Extensive experiments validate that ArtNVG surpasses existing methods, delivering superior results in content preservation, style alignment, and local consistency.

arxiv情報

著者 Zixiao Gu,Mengtian Li,Ruhua Chen,Zhongxia Ji,Sichen Guo,Zhenye Zhang,Guangnan Ye,Zuo Hu
発行日 2025-03-05 14:11:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ArtNVG: Content-Style Separated Artistic Neighboring-View Gaussian Stylization はコメントを受け付けていません

AdaSin: Enhancing Hard Sample Metrics with Dual Adaptive Penalty for Face Recognition

要約

近年、深い畳み込みニューラルネットワークの出現により、コンピュータービジョンにおける顕著な研究焦点として顔認識が位置付けられています。
マージンベース、ハードサンプルマイニングベース、ハイブリッドアプローチなどの従来の損失関数は、顕著なパフォーマンスの改善を達成し、トレーニングを最適化するためのカリキュラム学習をレバレバルするものもあります。
ただし、これらの方法は、ハードサンプルの難易度を効果的に定量化するのに不十分なことがよくあります。
これに対処するために、サンプルの埋め込み機能とその基本的な真実のクラスセンターとの間に角度のサインを新しい難易度メトリックとして導入する適応サイン(アダシン)損失関数を提案します。
このメトリックは、ハードサンプルの正確かつ効果的な罰則を可能にします。
カリキュラム学習を組み込むことにより、モデルは異なるトレーニング段階で分類境界を動的に調整します。
以前の適応マージン損失関数とは異なり、アダシンはハードサンプルの正と負のコサインの両方の類似性に適用される二重適応ペナルティを導入します。
この設計は、より強い制約を課し、クラス内のコンパクトさとクラス間分離性を高めます。
デュアル適応ペナルティとカリキュラム学習の組み合わせは、適切に設計された難易度メトリックによって導かれます。
これにより、モデルは後のトレーニング段階でハードサンプルにより効果的に焦点を合わせ、高度に識別的な顔の特徴を抽出することができます。
8つのベンチマークにわたる広範な実験は、アダシンが他の最先端の方法と比較して優れた精度を達成することを示しています。

要約(オリジナル)

In recent years, the emergence of deep convolutional neural networks has positioned face recognition as a prominent research focus in computer vision. Traditional loss functions, such as margin-based, hard-sample mining-based, and hybrid approaches, have achieved notable performance improvements, with some leveraging curriculum learning to optimize training. However, these methods often fall short in effectively quantifying the difficulty of hard samples. To address this, we propose Adaptive Sine (AdaSin) loss function, which introduces the sine of the angle between a sample’s embedding feature and its ground-truth class center as a novel difficulty metric. This metric enables precise and effective penalization of hard samples. By incorporating curriculum learning, the model dynamically adjusts classification boundaries across different training stages. Unlike previous adaptive-margin loss functions, AdaSin introduce a dual adaptive penalty, applied to both the positive and negative cosine similarities of hard samples. This design imposes stronger constraints, enhancing intra-class compactness and inter-class separability. The combination of the dual adaptive penalty and curriculum learning is guided by a well-designed difficulty metric. It enables the model to focus more effectively on hard samples in later training stages, and lead to the extraction of highly discriminative face features. Extensive experiments across eight benchmarks demonstrate that AdaSin achieves superior accuracy compared to other state-of-the-art methods.

arxiv情報

著者 Qiqi Guo,Zhuowen Zheng,Guanghua Yang,Zhiquan Liu,Xiaofan Li,Jianqing Li,Jinyu Tian,Xueyuan Gong
発行日 2025-03-05 14:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AdaSin: Enhancing Hard Sample Metrics with Dual Adaptive Penalty for Face Recognition はコメントを受け付けていません

GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization

要約

シーン座標の回帰やカメラは回帰をもたらすなど、さまざまな視覚的ローカリゼーションアプローチが存在しますが、これらの方法は最適化の複雑さや限られた精度に苦しんでいます。
これらの課題に対処するために、3Dジオメトリとシーンの外観の両方のコンパクトなエンコードを可能にする、特に3Dガウススプラッティング(3DG)の新しいビュー合成技術の使用を調査します。
軽量で堅牢なキーポイント記述子を軽量Xfeat機能抽出器から3DGに統合し、屋内環境と屋外環境の両方でパフォーマンスを向上させる2段階の手順を提案します。
粗いポーズ推定値は、3DGS表現とクエリの画像記述子の間の2D-3D対応を介して直接取得されます。
第2段階では、レンダリングベースの測光ワープ損失を最小限に抑えることにより、最初のポーズ推定値が改良されます。
広く使用されている屋内および屋外データセットのベンチマークは、NerfmatchやPnerflocなどの最近のニューラルレンダリングベースのローカリゼーション方法よりも改善を示しています。

要約(オリジナル)

Although various visual localization approaches exist, such as scene coordinate regression and camera pose regression, these methods often struggle with optimization complexity or limited accuracy. To address these challenges, we explore the use of novel view synthesis techniques, particularly 3D Gaussian Splatting (3DGS), which enables the compact encoding of both 3D geometry and scene appearance. We propose a two-stage procedure that integrates dense and robust keypoint descriptors from the lightweight XFeat feature extractor into 3DGS, enhancing performance in both indoor and outdoor environments. The coarse pose estimates are directly obtained via 2D-3D correspondences between the 3DGS representation and query image descriptors. In the second stage, the initial pose estimate is refined by minimizing the rendering-based photometric warp loss. Benchmarking on widely used indoor and outdoor datasets demonstrates improvements over recent neural rendering-based localization methods, such as NeRFMatch and PNeRFLoc.

arxiv情報

著者 Gennady Sidorov,Malik Mohrat,Denis Gridusov,Ruslan Rakhimov,Sergey Kolyubin
発行日 2025-03-05 14:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization はコメントを受け付けていません

LDPM: Towards undersampled MRI reconstruction with MR-VAE and Latent Diffusion Prior

要約

拡散モデルは、強力な生成モデルとして、幅広いアプリケーションを発見し、画像の再構成の問題を解決する上で大きな可能性を示しています。
一部の作品は、拡散モデルでMRI再構成を解決しようとしましたが、これらの方法はピクセル空間で直接動作し、最適化と推論のための計算コストが高くなります。
豊富な視覚前の自然画像で事前に訓練された潜在的な拡散モデルは、より低次元の潜在空間で動作することにより、MRI再構成の高い計算コスト問題を解決することが期待されています。
ただし、MRI再構成への直接的な適用は、3つの重要な課題に直面しています。(1)医療忠実度の明示的な制御メカニズムの欠如、(2)自然画像とMR物理学の間のドメインギャップ、および(3)潜在空間における未定義のデータの一貫性。
これらの課題に対処するために、以前の新しい潜在的な拡散以前のアンダーサンプリングMRI再構成(LDPM)メソッドが提案されています。
私たちのLDPMフレームワークは、これらの課題に次のように対処します。(1)知覚の質と解剖学的忠実度のバランスをとる2段階の再構成戦略を備えたスケッチ誘導パイプライン、(2)MRI-Optimized VAE(MR-vae)は、SD-vaeと比較したPSNRで約3.92 dBの改善を達成します。
\ cite {sd}、および(3)デュアルステージサンプラー、潜在空間で高忠実度の再構築を実施する間隔のDDPMサンプラーの変更されたバージョン。
FastMri DataSet \ Cite {FastMri}の実験は、提案された方法の最先端のパフォーマンスと、さまざまなシナリオでのその堅牢性を示しています。
各モジュールの有効性は、アブレーション実験によっても検証されます。

要約(オリジナル)

Diffusion models, as powerful generative models, have found a wide range of applications and shown great potential in solving image reconstruction problems. Some works attempted to solve MRI reconstruction with diffusion models, but these methods operate directly in pixel space, leading to higher computational costs for optimization and inference. Latent diffusion models, pre-trained on natural images with rich visual priors, are expected to solve the high computational cost problem in MRI reconstruction by operating in a lower-dimensional latent space. However, direct application to MRI reconstruction faces three key challenges: (1) absence of explicit control mechanisms for medical fidelity, (2) domain gap between natural images and MR physics, and (3) undefined data consistency in latent space. To address these challenges, a novel Latent Diffusion Prior-based undersampled MRI reconstruction (LDPM) method is proposed. Our LDPM framework addresses these challenges by: (1) a sketch-guided pipeline with a two-step reconstruction strategy, which balances perceptual quality and anatomical fidelity, (2) an MRI-optimized VAE (MR-VAE), which achieves an improvement of approximately 3.92 dB in PSNR for undersampled MRI reconstruction compared to that with SD-VAE \cite{sd}, and (3) Dual-Stage Sampler, a modified version of spaced DDPM sampler, which enforces high-fidelity reconstruction in the latent space. Experiments on the fastMRI dataset\cite{fastmri} demonstrate the state-of-the-art performance of the proposed method and its robustness across various scenarios. The effectiveness of each module is also verified through ablation experiments.

arxiv情報

著者 Xingjian Tang,Jingwei Guan,Linge Li,Ran Shi,Youmei Zhang,Mengye Lyu,Li Yan
発行日 2025-03-05 14:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | LDPM: Towards undersampled MRI reconstruction with MR-VAE and Latent Diffusion Prior はコメントを受け付けていません

Unified Human Localization and Trajectory Prediction with Monocular Vision

要約

従来の人間の軌道予測モデルは、クリーンなキュレーションされたデータに依存しており、ロボットアプリケーションでは非現実的な特殊な機器または手動ラベル付けが必要です。
既存の予測因子は、ノイズの多い入力で使用すると、堅牢性に影響を与える観察をきれいにするために過度にフィットする傾向があります。
この作業では、単眼カメラのみを使用してローカリゼーションと予測タスクを共同で解決する変圧器ベースのフレームワークであるモノタンスモーション(MT)を提案します。
私たちのフレームワークには、2つの主要なモジュールがあります。バードアイビュー(BEV)のローカリゼーションと軌道予測です。
BEVのローカリゼーションモジュールは、より滑らかな局所化のための新しい方向性の損失によって強化された2Dヒトのポーズを使用している人の位置を推定します。
軌道予測モジュールは、これらの推定値からの将来の動きを予測します。
統一されたフレームワークと両方のタスクを共同でトレーニングすることにより、私たちの方法は、ノイズの多い入力で作られた現実世界のシナリオでより堅牢であることを示しています。
キュレーションされたデータセットと非キュレーションデータセットの両方でMTネットワークを検証します。
キュレーションされたデータセットでは、MTはBEVのローカリゼーションと軌道予測に関するベースラインモデルよりも約12%の改善を達成します。
実際の非キュレーションデータセットでは、実験結果は、MTが同様のパフォーマンスレベルを維持し、その堅牢性と一般化能力を強調していることを示しています。
このコードは、https://github.com/vita-epfl/monotransmotionで入手できます。

要約(オリジナル)

Conventional human trajectory prediction models rely on clean curated data, requiring specialized equipment or manual labeling, which is often impractical for robotic applications. The existing predictors tend to overfit to clean observation affecting their robustness when used with noisy inputs. In this work, we propose MonoTransmotion (MT), a Transformer-based framework that uses only a monocular camera to jointly solve localization and prediction tasks. Our framework has two main modules: Bird’s Eye View (BEV) localization and trajectory prediction. The BEV localization module estimates the position of a person using 2D human poses, enhanced by a novel directional loss for smoother sequential localizations. The trajectory prediction module predicts future motion from these estimates. We show that by jointly training both tasks with our unified framework, our method is more robust in real-world scenarios made of noisy inputs. We validate our MT network on both curated and non-curated datasets. On the curated dataset, MT achieves around 12% improvement over baseline models on BEV localization and trajectory prediction. On real-world non-curated dataset, experimental results indicate that MT maintains similar performance levels, highlighting its robustness and generalization capability. The code is available at https://github.com/vita-epfl/MonoTransmotion.

arxiv情報

著者 Po-Chien Luan,Yang Gao,Celine Demonsant,Alexandre Alahi
発行日 2025-03-05 14:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Unified Human Localization and Trajectory Prediction with Monocular Vision はコメントを受け付けていません