Show-o2: Improved Native Unified Multimodal Models

要約

このホワイトペーパーでは、自動網性モデリングとフローマッチングを活用する改善されたネイティブ統合マルチモーダルモデル\ empond {i.e。、} show-o2を提示します。
3D因果変異の自動エンコーダー空間に基づいて構築された統一された視覚表現は、空間的な(-temporal)融合のデュアルパスによって構築され、効果的なマルチモーダルの理解と生成を確保しながら、画像とビデオのモダリティ全体でスケーラビリティを可能にします。
言語モデルに基づいて、テキストトークンの予測と画像/ビデオの生成を促進するために、それぞれ自己回帰モデリングとフローマッチングが言語ヘッドとフローヘッドにネイティブに適用されます。
2段階のトレーニングレシピは、より大きなモデルに効果的に学習し、拡大するように設計されています。
結果として得られるショー-O2モデルは、テキスト、画像、ビデオなど、さまざまなモダリティ全体の幅広いマルチモーダルの理解と生成タスクを処理する際の汎用性を示しています。
コードとモデルはhttps://github.com/showlab/show-oでリリースされます。

要約(オリジナル)

This paper presents improved native unified multimodal models, \emph{i.e.,} Show-o2, that leverage autoregressive modeling and flow matching. Built upon a 3D causal variational autoencoder space, unified visual representations are constructed through a dual-path of spatial (-temporal) fusion, enabling scalability across image and video modalities while ensuring effective multimodal understanding and generation. Based on a language model, autoregressive modeling and flow matching are natively applied to the language head and flow head, respectively, to facilitate text token prediction and image/video generation. A two-stage training recipe is designed to effectively learn and scale to larger models. The resulting Show-o2 models demonstrate versatility in handling a wide range of multimodal understanding and generation tasks across diverse modalities, including text, images, and videos. Code and models are released at https://github.com/showlab/Show-o.

arxiv情報

著者 Jinheng Xie,Zhenheng Yang,Mike Zheng Shou
発行日 2025-06-18 15:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Show-o2: Improved Native Unified Multimodal Models はコメントを受け付けていません

Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification

要約

超高空間解像度の土地被覆分類は、きめ細かい土地被覆分析には不可欠ですが、ピクセルレベルの注釈のコスト、大幅なスケールの変動、および大規模視覚モデルの限られた適応性のため、困難なままです。
既存の方法は通常、1メートルの空間解像度の画像に焦点を当て、注釈付きデータに大きく依存しますが、実際のアプリケーションでは、弱い監督下で高解像度の画像を処理する必要があることがよくあります。
これに対処するために、0.3 mの空間解像度画像のパラメーター効率の高いセミスパイブ化セグメンテーションフレームワークを提案します。これは、SAM2の知識を活用し、総モデルパラメーターのわずか5.96%で軽量設計を維持しながら、リモートセンシング固有のFreqWeaverアダプターを導入し、細粒の詳細モデリングを強化します。
非標識データを効果的に活用し、最小限のパラメーターオーバーヘッドを維持することにより、提案された方法は、優れた構造一貫性を備えた堅牢なセグメンテーション結果を提供し、既存のパラメーター効率の高いチューニング戦略に対して1.78%の改善と、最先端の高解像度のリモート感覚セグメンテーションアプローチと比較して3.44%のゲインを達成します。

要約(オリジナル)

Ultra-high Spatial Resolution Land Cover Classification is essential for fine-grained land cover analysis, yet it remains challenging due to the high cost of pixel-level annotations, significant scale variation, and the limited adaptability of large-scale vision models. Existing methods typically focus on 1-meter spatial resolution imagery and rely heavily on annotated data, whereas practical applications often require processing higher-resolution imagery under weak supervision. To address this, we propose a parameter-efficient semi-supervised segmentation framework for 0.3 m spatial resolution imagery, which leverages the knowledge of SAM2 and introduces a remote sensing-specific FreqWeaver Adapter to enhance fine-grained detail modeling while maintaining a lightweight design at only 5.96% of the total model parameters. By effectively leveraging unlabeled data and maintaining minimal parameter overhead, the proposed method delivers robust segmentation results with superior structural consistency, achieving a 1.78% improvement over existing parameter-efficient tuning strategies and a 3.44% gain compared to state-of-the-art high-resolution remote sensing segmentation approaches.

arxiv情報

著者 Junhao Wu,Aboagye-Ntow Stephen,Chuyuan Wang,Gang Chen,Xin Huang
発行日 2025-06-18 15:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification はコメントを受け付けていません

A Unified Graph-based Framework for Scalable 3D Tree Reconstruction and Non-Destructive Biomass Estimation from Point Clouds

要約

地上森林のバイオマス(AGB)の推定は、炭素貯蔵を評価し、持続可能な森林管理をサポートするために重要です。
定量的構造モデル(QSM)は、3Dツリー構造再建を通じてAGB推定に対する非破壊的なアプローチを提供します。
ただし、現在のQSMメソッドは、主に個々のツリー向けに設計されており、地上レーザースキャン(TLS)からの高品質のポイントクラウドデータに依存し、スケーラビリティと実用的な展開を妨げる複数の前処理ステップに依存するため、大きな制限に直面しています。
この研究では、革新的なグラフベースのパイプラインを使用して、大規模なポイントクラウドのエンドツーエンド処理を可能にする新しい統合フレームワークを紹介します。
提案されたアプローチは、ツリートポロジーの推論のためのパスや抽象化を含む専用のグラフ操作を通じて、ツリーセグメンテーション、葉の分離、3D骨格再構成をシームレスに統合します。
さまざまな葉条件(葉と葉のオフ)、空間スケール(ツリーおよびプロットレベル)、およびデータソース(TLSおよびUAVベースのレーザースキャン、ULS)のデータセットで包括的な検証が行われました。
実験結果は、特にリーフオンシナリオ(〜20%の相対誤差)と部分カバレッジの低密度ULSデータセット(〜30%の相対誤差)で、困難な条件下での強いパフォーマンスを示しています。
これらの調査結果は、提案されたフレームワークが、大規模で非破壊的なAGB推定のための堅牢でスケーラブルなソリューションを提供することを示しています。
特殊な前処理ツールへの依存性を大幅に削減し、TLSの実行可能な代替品としてULSを確立します。
私たちの知る限り、これは、運用スケールでのシームレスでエンドツーエンドの3Dツリー再構成を可能にすることができる最初の方法です。
この進歩により、QSMベースのAGB推定の実現可能性が大幅に向上し、森林在庫と気候変動研究のより広範なアプリケーションへの道が開かれています。

要約(オリジナル)

Estimating forest above-ground biomass (AGB) is crucial for assessing carbon storage and supporting sustainable forest management. Quantitative Structural Model (QSM) offers a non-destructive approach to AGB estimation through 3D tree structural reconstruction. However, current QSM methods face significant limitations, as they are primarily designed for individual trees,depend on high-quality point cloud data from terrestrial laser scanning (TLS), and also require multiple pre-processing steps that hinder scalability and practical deployment. This study presents a novel unified framework that enables end-to-end processing of large-scale point clouds using an innovative graph-based pipeline. The proposed approach seamlessly integrates tree segmentation,leaf-wood separation and 3D skeletal reconstruction through dedicated graph operations including pathing and abstracting for tree topology reasoning. Comprehensive validation was conducted on datasets with varying leaf conditions (leaf-on and leaf-off), spatial scales (tree- and plot-level), and data sources (TLS and UAV-based laser scanning, ULS). Experimental results demonstrate strong performance under challenging conditions, particularly in leaf-on scenarios (~20% relative error) and low-density ULS datasets with partial coverage (~30% relative error). These findings indicate that the proposed framework provides a robust and scalable solution for large-scale, non-destructive AGB estimation. It significantly reduces dependency on specialized pre-processing tools and establishes ULS as a viable alternative to TLS. To our knowledge, this is the first method capable of enabling seamless, end-to-end 3D tree reconstruction at operational scales. This advancement substantially improves the feasibility of QSM-based AGB estimation, paving the way for broader applications in forest inventory and climate change research.

arxiv情報

著者 Di Wang,Shi Li
発行日 2025-06-18 15:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Unified Graph-based Framework for Scalable 3D Tree Reconstruction and Non-Destructive Biomass Estimation from Point Clouds はコメントを受け付けていません

TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy

要約

世界モデルは、環境をシミュレートし、効果的なエージェントの動作を可能にすることを目的としています。
ただし、実際の環境のモデリングは、空間と重要な時間の両方で動的に変化するため、独自の課題を提示します。
これらの構成されたダイナミクスをキャプチャするために、360度のパノラマ画像を豊富な相互接続された観測、状態、およびアクションノードに順応させるための時空間道路画像データセットを導入します。
この構造を活用すると、空間と時間の両方にわたるエゴセントリックビュー、位置座標、および移動コマンドの関係を同時にモデル化できます。
このデータセットは、ストライドで訓練された統一された自己回帰フレームワークを介して空間的および時間的ダイナミクスを統合するトランスベースの生成世界モデルであるTARDISを介してベンチマークします。
制御可能なフォトリアリスティックな画像合成、指示後の、自律的な自制心、最先端のジオレフェンスなど、さまざまなエージェントタスクにわたって堅牢なパフォーマンスを示します。
これらの結果は、具体化された推論能力を強化して、具体的な環境の空間的および時間的側面を理解し操作することができる洗練されたジェネラリストエージェントに対する有望な方向性を示唆しています。
トレーニングコード、データセット、およびモデルチェックポイントは、https://huggingface.co/datasets/tera-ai/strideで利用可能になります。

要約(オリジナル)

World models aim to simulate environments and enable effective agent behavior. However, modeling real-world environments presents unique challenges as they dynamically change across both space and, crucially, time. To capture these composed dynamics, we introduce a Spatio-Temporal Road Image Dataset for Exploration (STRIDE) permuting 360-degree panoramic imagery into rich interconnected observation, state and action nodes. Leveraging this structure, we can simultaneously model the relationship between egocentric views, positional coordinates, and movement commands across both space and time. We benchmark this dataset via TARDIS, a transformer-based generative world model that integrates spatial and temporal dynamics through a unified autoregressive framework trained on STRIDE. We demonstrate robust performance across a range of agentic tasks such as controllable photorealistic image synthesis, instruction following, autonomous self-control, and state-of-the-art georeferencing. These results suggest a promising direction towards sophisticated generalist agents–capable of understanding and manipulating the spatial and temporal aspects of their material environments–with enhanced embodied reasoning capabilities. Training code, datasets, and model checkpoints are made available at https://huggingface.co/datasets/Tera-AI/STRIDE.

arxiv情報

著者 Héctor Carrión,Yutong Bai,Víctor A. Hernández Castro,Kishan Panaganti,Ayush Zenith,Matthew Trang,Tony Zhang,Pietro Perona,Jitendra Malik
発行日 2025-06-18 15:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy はコメントを受け付けていません

RDD: Robust Feature Detector and Descriptor using Deformable Transformer

要約

構造からのストレートとスラムの中心的なステップとして、大幅な視点の変化などの挑戦的なシナリオの下での堅牢な機能の検出と説明の下での説明は、その遍在にもかかわらず解決されていません。
最近の作品は、幾何学的変換のモデル化におけるローカル機能の重要性を特定していますが、これらの方法は長距離関係に存在する視覚的な手がかりを学習できません。
堅牢な変形可能な検出器(RDD)を提示します。これは、変形可能な自己関節メカニズムを介してグローバルなコンテキストと幾何学的不変性をキャプチャする、変形可能な変圧器を活用する新規で堅牢なキーポイント検出器/記述子を提示します。
具体的には、変形可能な注意が重要な場所に焦点を当て、検索空間の複雑さを効果的に削減し、幾何学的不変性をモデル化することが観察されました。
さらに、標準のMegadepthデータセットに加えて、トレーニング用の空対地データセットを収集しました。
提案された方法は、スパースマッチングタスクのすべての最先端のキーポイント検出/説明方法よりも優れており、半密なマッチングも可能です。
包括的な評価を確保するために、2つの挑戦的なベンチマークを紹介します。1つは大きな視点とスケールのバリエーションを強調し、もう1つは空中ベンチマークです。これは、さまざまな高度にわたる3D再構成に最近人気を博している評価設定です。

要約(オリジナル)

As a core step in structure-from-motion and SLAM, robust feature detection and description under challenging scenarios such as significant viewpoint changes remain unresolved despite their ubiquity. While recent works have identified the importance of local features in modeling geometric transformations, these methods fail to learn the visual cues present in long-range relationships. We present Robust Deformable Detector (RDD), a novel and robust keypoint detector/descriptor leveraging the deformable transformer, which captures global context and geometric invariance through deformable self-attention mechanisms. Specifically, we observed that deformable attention focuses on key locations, effectively reducing the search space complexity and modeling the geometric invariance. Furthermore, we collected an Air-to-Ground dataset for training in addition to the standard MegaDepth dataset. Our proposed method outperforms all state-of-the-art keypoint detection/description methods in sparse matching tasks and is also capable of semi-dense matching. To ensure comprehensive evaluation, we introduce two challenging benchmarks: one emphasizing large viewpoint and scale variations, and the other being an Air-to-Ground benchmark — an evaluation setting that has recently gaining popularity for 3D reconstruction across different altitudes.

arxiv情報

著者 Gonglin Chen,Tianwen Fu,Haiwei Chen,Wenbin Teng,Hanyuan Xiao,Yajie Zhao
発行日 2025-06-18 16:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RDD: Robust Feature Detector and Descriptor using Deformable Transformer はコメントを受け付けていません

One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution

要約

特に、現実的な詳細合成のために安定した拡散(SD)などの事前に訓練された生成モデルを活用する場合、現実世界のビデオ超解像度(Real-VSR)の時間的一貫性を維持しながら、豊富な空間の詳細を再現することは困難な問題です。
既存のSDベースのReal-VSRメソッドは、しばしば時間的一貫性の空間的詳細を損なうため、最適ではない視覚品質をもたらします。
キーは、低品質(LQ)入力ビデオから劣化と堅牢な時間的一貫性の低下を効果的に抽出する方法にあると主張し、抽出された一貫性の低下を維持しながらビデオの詳細を強化します。
これを達成するために、効果的なSDベースのワンステップ拡散モデルをトレーニングするために、デュアルロラ学習(dloral)パラダイムを提案し、現実的なフレームの詳細と時間的一貫性を同時に達成します。
具体的には、フレーム間で相補的な情報を集約するためのクロスフレーム検索(CFR)モジュールを導入し、劣化した入力から堅牢な時間表現を学習するために、一貫性lora(c-lora)をトレーニングします。
一貫性学習の後、CFRおよびC-LORAモジュールを修正し、DETALE-LORA(D-LORA)をトレーニングして、C-LORAによって定義された時間空間と整合して時間的一貫性を維持しながら、空間的な詳細を強化します。
2つのフェーズは、最適化のために繰り返し交互になり、一貫した詳細豊富な出力を共同で提供します。
推論中、2つのLORAブランチがSDモデルにマージされ、単一の拡散ステップで効率的で高品質のビデオ修復が可能になります。
実験は、Dloralが精度と速度の両方で強力なパフォーマンスを達成することを示しています。
コードとモデルはhttps://github.com/yjsunnn/dloralで入手できます。

要約(オリジナル)

It is a challenging problem to reproduce rich spatial details while maintaining temporal consistency in real-world video super-resolution (Real-VSR), especially when we leverage pre-trained generative models such as stable diffusion (SD) for realistic details synthesis. Existing SD-based Real-VSR methods often compromise spatial details for temporal coherence, resulting in suboptimal visual quality. We argue that the key lies in how to effectively extract the degradation-robust temporal consistency priors from the low-quality (LQ) input video and enhance the video details while maintaining the extracted consistency priors. To achieve this, we propose a Dual LoRA Learning (DLoRAL) paradigm to train an effective SD-based one-step diffusion model, achieving realistic frame details and temporal consistency simultaneously. Specifically, we introduce a Cross-Frame Retrieval (CFR) module to aggregate complementary information across frames, and train a Consistency-LoRA (C-LoRA) to learn robust temporal representations from degraded inputs. After consistency learning, we fix the CFR and C-LoRA modules and train a Detail-LoRA (D-LoRA) to enhance spatial details while aligning with the temporal space defined by C-LoRA to keep temporal coherence. The two phases alternate iteratively for optimization, collaboratively delivering consistent and detail-rich outputs. During inference, the two LoRA branches are merged into the SD model, allowing efficient and high-quality video restoration in a single diffusion step. Experiments show that DLoRAL achieves strong performance in both accuracy and speed. Code and models are available at https://github.com/yjsunnn/DLoRAL.

arxiv情報

著者 Yujing Sun,Lingchen Sun,Shuaizheng Liu,Rongyuan Wu,Zhengqiang Zhang,Lei Zhang
発行日 2025-06-18 16:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution はコメントを受け付けていません

Mono-Modalizing Extremely Heterogeneous Multi-Modal Medical Image Registration

要約

臨床診療では、陽電子放出断層撮影(PET)や分数異方性(FA)などの機能的特性を備えたイメージングモダリティは、しばしば正確な解釈またはグループ分析のための構造的参照(MRI、CT)と整合し、マルチモーダルの変形可能な画像登録(DIR)を必要とします。
ただし、標準的な構造スキャンと比較してこれらのモダリティの極端な不均一性のため、従来の監視されていないDIRメソッドは、信頼できる空間マッピングを学び、しばしば画像を歪めるのに苦労しています。
これらのモデルを導く類似性メトリックは、非常に異なるモダリティ間のアラインメントをキャプチャできないことがわかります。
これに対処するために、既存のモデルへのシームレスな統合のために確立されたアーキテクチャパラダイムを保存しながら、モノモーダルの類似性のみを使用してマルチモーダルDIRモデルをトレーニングする新しいフレームワークであるM2M-REG(マルチからモノ登録)を提案します。
また、M2M-Regの環状トレーニングスキームを活用してDiffeyomorphismを促進する正規者であるGradcyconも紹介します。
さらに、私たちのフレームワークは、自然に半監視された設定に拡張され、地上の真実の変換やセグメンテーションマスクを必要とせずに、事前に整列していないペアのみを統合します。
アルツハイマー病神経画像イニシアチブ(ADNI)データセットに関する実験は、M2M-REGがPET-MRIおよびFA-MRI登録の以前の方法よりも最大2倍高いDSCを達成し、非常に異種の多数のマルチモーダル監督を処理する際の有効性を強調していることを示しています。
私たちのコードは、https://github.com/micv-yonsei/m2m-regで入手できます。

要約(オリジナル)

In clinical practice, imaging modalities with functional characteristics, such as positron emission tomography (PET) and fractional anisotropy (FA), are often aligned with a structural reference (e.g., MRI, CT) for accurate interpretation or group analysis, necessitating multi-modal deformable image registration (DIR). However, due to the extreme heterogeneity of these modalities compared to standard structural scans, conventional unsupervised DIR methods struggle to learn reliable spatial mappings and often distort images. We find that the similarity metrics guiding these models fail to capture alignment between highly disparate modalities. To address this, we propose M2M-Reg (Multi-to-Mono Registration), a novel framework that trains multi-modal DIR models using only mono-modal similarity while preserving the established architectural paradigm for seamless integration into existing models. We also introduce GradCyCon, a regularizer that leverages M2M-Reg’s cyclic training scheme to promote diffeomorphism. Furthermore, our framework naturally extends to a semi-supervised setting, integrating pre-aligned and unaligned pairs only, without requiring ground-truth transformations or segmentation masks. Experiments on the Alzheimer’s Disease Neuroimaging Initiative (ADNI) dataset demonstrate that M2M-Reg achieves up to 2x higher DSC than prior methods for PET-MRI and FA-MRI registration, highlighting its effectiveness in handling highly heterogeneous multi-modal DIR. Our code is available at https://github.com/MICV-yonsei/M2M-Reg.

arxiv情報

著者 Kyobin Choo,Hyunkyung Han,Jinyeong Kim,Chanyong Yoon,Seong Jae Hwang
発行日 2025-06-18 16:12:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 | Mono-Modalizing Extremely Heterogeneous Multi-Modal Medical Image Registration はコメントを受け付けていません

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

要約

合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目を集めていますが、常識と物理的法則の違反になりやすいままです。
これは、そのような原則を理解し、幻覚に対して堅牢である信頼できる異常検出器の必要性を強調しています。
これに対処するために、ViedHalluを紹介します。VideoHalluは、Veo2、Sora、Klingなどのモデルによって生成された合成ビデオから構築された3,000を超えるビデオQAペアのベンチマークであり、専門家で作られたカウンターに反したQAと組み合わせて、マルチモーダル大言語モデル(MLLM)の批判的思考能力を評価します。
VideoHalluは、MLLMSの異常検出能力を、アラインメント、一貫性、常識、および物理学の例を使用して評価します。
GPT-4O、GEMINI-2.5-PRO、QWEN2.5-VL、Video-R1、およびVideoChat-R1を含むSota Mllmsをベンチマークします。
これらのモデルは、MVBenchやMovieChatなどの多くの現実世界のベンチマークでうまく機能しますが、合成ビデオでは基本的な物理ベースと常識的な推論に苦労しています。
さらに、ビデオQAと現実的および合成ビデオに対するカウンターに反したコモンセンスと物理学の推論を組み合わせたデータセットでのカリキュラム学習を使用して、グループ相対ポリシーの最適化(GRPO)を使用した後のトレーニングにより、MLLMの異常検出と批判的思考が改善され、ターゲットトレーニングの価値を改善するためのターゲットトレーニングの価値が示されます。
私たちのコードは、https://github.com/zli12321/videohallu.gitで入手できます。

要約(オリジナル)

Synthetic video generation has gained significant attention for its realism and broad applications, but remains prone to violations of common sense and physical laws. This highlights the need for reliable abnormality detectors that understand such principles and are robust to hallucinations. To address this, we introduce VideoHallu, a benchmark of over 3,000 video QA pairs built from synthetic videos generated by models like Veo2, Sora, and Kling, paired with expert-crafted counterintuitive QA to evaluate the critical thinking abilities of Multi-modal Large Language Models (MLLMs) on abnormalities that are perceptually obvious to humans but often hallucinated due to language priors. VideoHallu evaluates MLLMs’ abnormality detection abilities with examples across alignment, consistency, commonsense, and physics. We benchmark SOTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL, Video-R1, and VideoChat-R1. We observe that these models perform well on many real-world benchmarks like MVBench and MovieChat, but still struggle with basic physics-based and commonsense reasoning in synthetic videos. We further show that post-training with Group Relative Policy Optimization (GRPO), using curriculum learning on datasets combining video QA with counterintuitive commonsense and physics reasoning over real and synthetic videos, improves MLLMs’ abnormality detection and critical thinking, demonstrating the value of targeted training for improving their understanding of commonsense and physical laws. Our code is available at https://github.com/zli12321/VideoHallu.git.

arxiv情報

著者 Zongxia Li,Xiyang Wu,Guangyao Shi,Yubin Qin,Hongyang Du,Tianyi Zhou,Dinesh Manocha,Jordan Lee Boyd-Graber
発行日 2025-06-18 16:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding はコメントを受け付けていません

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

要約

歩行とは、歩行中に生成される四肢の動きのパターンを指します。これは、物理的特性と行動特性の両方のために各個人に固有のものです。
歩行パターンは、生体認証、生体力学、スポーツ、リハビリテーションで広く研究されています。
従来の方法はビデオとモーションキャプチャに依存していますが、足底圧感センシングテクノロジーの進歩は、歩行に関するより深い洞察を提供するようになりました。
ただし、ウォーキング中の足の下の圧力は、大きくて公開されているデータセットが不足しているため、既知のままです。
これに対処するために、UNB Stepup-P150データセット:150人の個人からのデータを含む足元圧力を使用した歩行分析と認識のための足音データベースを紹介します。
このデータセットは、1.2m x 3.6mの圧力検出通路を使用して収集された高解像度の足底圧データ(1 cm 1 cmのセンサー)で構成されています。
さまざまな速度(優先、遅い、速い、高速、遅い)と履物の状態(裸足、標準的な靴、2つの個人靴)で歩いている参加者から200,000以上の足音が含まれており、バイオメトリック歩行認識の進歩をサポートし、バイオメカニクスと深い学習の新しい研究機会を提示します。
UNB Stepup-P150は、足底圧力ベースの歩行分析と認識のための新しいベンチマークを確立します。

要約(オリジナル)

Gait refers to the patterns of limb movement generated during walking, which are unique to each individual due to both physical and behavioral traits. Walking patterns have been widely studied in biometrics, biomechanics, sports, and rehabilitation. While traditional methods rely on video and motion capture, advances in plantar pressure sensing technology now offer deeper insights into gait. However, underfoot pressures during walking remain underexplored due to the lack of large, publicly accessible datasets. To address this, we introduce the UNB StepUP-P150 dataset: a footStep database for gait analysis and recognition using Underfoot Pressure, including data from 150 individuals. This dataset comprises high-resolution plantar pressure data (4 sensors per cm-squared) collected using a 1.2m by 3.6m pressure-sensing walkway. It contains over 200,000 footsteps from participants walking with various speeds (preferred, slow-to-stop, fast, and slow) and footwear conditions (barefoot, standard shoes, and two personal shoes), supporting advancements in biometric gait recognition and presenting new research opportunities in biomechanics and deep learning. UNB StepUP-P150 establishes a new benchmark for plantar pressure-based gait analysis and recognition.

arxiv情報

著者 Robyn Larracy,Angkoon Phinyomark,Ala Salehi,Eve MacDonald,Saeed Kazemi,Shikder Shafiul Bashar,Aaron Tabor,Erik Scheme
発行日 2025-06-18 16:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds はコメントを受け付けていません

I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling

要約

マルチモーダルの医療画像合成には、ソースとターゲットモダリティの間の組織シグナルの非線形変換が含まれ、組織は多様な空間距離にわたって文脈的相互作用を示します。
そのため、合成におけるネットワークアーキテクチャの有用性は、これらのコンテキスト機能を表現する能力に依存します。
畳み込みニューラルネットワーク(CNNS)は、長距離コンテキストに対する感度が低いことを犠牲にして、高い局所精度を提供します。
トランスフォーマーはこの問題を軽減することを約束しますが、注意フィルターの固有の複雑さのために、長距離と短距離のコンテキストに対する感受性との間の不利なトレードオフに苦しんでいます。
複雑さ駆動型のトレードオフを避けながらコンテキスト機能を効果的にキャプチャするために、状態空間モデリング(SSM)フレームワークに基づいて、新しいマルチモーダル合成方法I2i-Mambaを紹介します。
ハイブリッドの残留アーキテクチャ全体のセマンティック表現に焦点を当て、I2I-MAMBAは、画像とフーリエドメインの相補的なコンテキストモデリングのための新しいデュアルドメインMAMBA(DDMAMBA)ブロックを活用し、畳み込み層で空間精度を維持します。
DDMAMBAは、従来のラスタースキャンの軌跡から迂回し、スパイラルスキャンの軌跡に基づいて新規SSM演算子を活用して、ラジアルカバレッジと角度等方性の強化とコンテキストを備えたコンテキスト、およびチャネル混合層を学習して、チャネル次元全体でコンテキストを集約します。
マルチトラストストMRIおよびMRI-CTプロトコルに関する包括的なデモンストレーションは、I2i-Mambaが最先端のCNN、トランス、SSMに対して優れたパフォーマンスを提供することを示しています。

要約(オリジナル)

Multi-modal medical image synthesis involves nonlinear transformation of tissue signals between source and target modalities, where tissues exhibit contextual interactions across diverse spatial distances. As such, the utility of a network architecture in synthesis depends on its ability to express these contextual features. Convolutional neural networks (CNNs) offer high local precision at the expense of poor sensitivity to long-range context. While transformers promise to alleviate this issue, they suffer from an unfavorable trade-off between sensitivity to long- versus short-range context due to the intrinsic complexity of attention filters. To effectively capture contextual features while avoiding the complexity-driven trade-offs, here we introduce a novel multi-modal synthesis method, I2I-Mamba, based on the state space modeling (SSM) framework. Focusing on semantic representations across a hybrid residual architecture, I2I-Mamba leverages novel dual-domain Mamba (ddMamba) blocks for complementary contextual modeling in image and Fourier domains, while maintaining spatial precision with convolutional layers. Diverting from conventional raster-scan trajectories, ddMamba leverages novel SSM operators based on a spiral-scan trajectory to learn context with enhanced radial coverage and angular isotropy, and a channel-mixing layer to aggregate context across the channel dimension. Comprehensive demonstrations on multi-contrast MRI and MRI-CT protocols indicate that I2I-Mamba offers superior performance against state-of-the-art CNNs, transformers and SSMs.

arxiv情報

著者 Omer F. Atli,Bilal Kabas,Fuat Arslan,Arda C. Demirtas,Mahmut Yurt,Onat Dalmaz,Tolga Çukur
発行日 2025-06-18 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling はコメントを受け付けていません