Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors

要約

POW3Rは、受け入れる入力モダリティで非常に用途が広い新しい大規模な3D視覚回帰モデルです。
テスト時に既知のカメラまたはシーンプリエを活用するメカニズムがない以前のフィードフォワードモデルとは異なり、POW3Rには、単一のネットワーク内の入力画像とともに、内在性、相対ポーズ、密度、またはまばらな深さなどの補助情報の組み合わせが組み込まれています。
強力なプリトレーニングを活用するトランスベースのアーキテクチャである最近のDust3Rパラダイムに基づいて、当社の軽量で多用途の条件付けは、補助情報が利用可能なときにより正確な推定値を予測するための追加のガイダンスとして機能します。
トレーニング中に、各反復でモダリティのランダムサブセットをモデルに供給します。これにより、モデルは、テスト時に異なるレベルの既知のプライアーで動作できます。
これにより、ネイティブ画像解像度の推論を実行したり、Point-Cloudの完了など、新しい機能が開きます。
3D再構成、深度完了、マルチビュー深度予測、マルチビューステレオ、およびマルチビューポーズ推定タスクに関する実験は、最新の結果をもたらし、利用可能なすべての情報を利用する際のPoW3Rの有効性を確認します。
プロジェクトのウェブページはhttps://europe.naverlabs.com/pow3rです。

要約(オリジナル)

We present Pow3r, a novel large 3D vision regression model that is highly versatile in the input modalities it accepts. Unlike previous feed-forward models that lack any mechanism to exploit known camera or scene priors at test time, Pow3r incorporates any combination of auxiliary information such as intrinsics, relative pose, dense or sparse depth, alongside input images, within a single network. Building upon the recent DUSt3R paradigm, a transformer-based architecture that leverages powerful pre-training, our lightweight and versatile conditioning acts as additional guidance for the network to predict more accurate estimates when auxiliary information is available. During training we feed the model with random subsets of modalities at each iteration, which enables the model to operate under different levels of known priors at test time. This in turn opens up new capabilities, such as performing inference in native image resolution, or point-cloud completion. Our experiments on 3D reconstruction, depth completion, multi-view depth prediction, multi-view stereo, and multi-view pose estimation tasks yield state-of-the-art results and confirm the effectiveness of Pow3r at exploiting all available information. The project webpage is https://europe.naverlabs.com/pow3r.

arxiv情報

著者 Wonbong Jang,Philippe Weinzaepfel,Vincent Leroy,Lourdes Agapito,Jerome Revaud
発行日 2025-03-21 17:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors はコメントを受け付けていません

SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum

要約

エンドツーエンドの視覚ドローンナビゲーションのために、Sous Videと集合的に呼ばれる新しいシミュレーター、トレーニングアプローチ、およびポリシーアーキテクチャを提案します。
私たちの訓練されたポリシーは、オンボードの認識と計算のみを使用して、堅牢な実世界のパフォーマンスでゼロショットSIMからリアル転送を示します。
イチジクと呼ばれる私たちのシミュレーターは、計算上シンプルなドローンダイナミクスモデルを視覚的に忠実なガウススプラッティングシーンの再構成と結び付けます。
イチジクは、最大130 fpsで光リアリスティックな画像を生成するドローン飛行を迅速にシミュレートできます。
イチジクを使用して、特権状態とダイナミクス情報を備えた専門家MPCから100K-300K画像/状態アクションペアを収集し、ダイナミクスパラメーターと空間障害を無作為化します。
次に、このエキスパートMPCを、SV-NETと呼ばれる軽量のニューラルアーキテクチャを使用して、エンドツーエンドの視覚運動ポリシーに蒸留します。
SV-NETプロセスカラーイメージ、光学フロー、およびIMUデータは、ドローンに搭載された20 Hzの20 Hzで低レベルの推力およびボディレートコマンドにストリーミングします。
重要なことに、SV-NETには、実行時にドローンダイナミクスのバリエーションに適応する低レベル制御用の学習モジュールが含まれています。
105のハードウェア実験のキャンペーンでは、Sous Videポリシーが30%の質量変動、40 m/sの突風、周囲の明るさの60%の変化、シーンからオブジェクトのシフトまたは除去、およびドローンの視野を積極的に移動する人々に堅牢であることを示します。
コード、データ、および実験ビデオは、プロジェクトページhttps://stanfordmsl.github.io/sousvide/で見つけることができます。

要約(オリジナル)

We propose a new simulator, training approach, and policy architecture, collectively called SOUS VIDE, for end-to-end visual drone navigation. Our trained policies exhibit zero-shot sim-to-real transfer with robust real-world performance using only onboard perception and computation. Our simulator, called FiGS, couples a computationally simple drone dynamics model with a high visual fidelity Gaussian Splatting scene reconstruction. FiGS can quickly simulate drone flights producing photorealistic images at up to 130 fps. We use FiGS to collect 100k-300k image/state-action pairs from an expert MPC with privileged state and dynamics information, randomized over dynamics parameters and spatial disturbances. We then distill this expert MPC into an end-to-end visuomotor policy with a lightweight neural architecture, called SV-Net. SV-Net processes color image, optical flow and IMU data streams into low-level thrust and body rate commands at 20 Hz onboard a drone. Crucially, SV-Net includes a learned module for low-level control that adapts at runtime to variations in drone dynamics. In a campaign of 105 hardware experiments, we show SOUS VIDE policies to be robust to 30% mass variations, 40 m/s wind gusts, 60% changes in ambient brightness, shifting or removing objects from the scene, and people moving aggressively through the drone’s visual field. Code, data, and experiment videos can be found on our project page: https://stanfordmsl.github.io/SousVide/.

arxiv情報

著者 JunEn Low,Maximilian Adang,Javier Yu,Keiko Nagami,Mac Schwager
発行日 2025-03-21 17:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum はコメントを受け付けていません

A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas

要約

この論文では、「内部関数」と呼ばれる形状記述子を紹介します。
これは、画像分析のために以前の記述子を改良するトポロジーデータ分析(TDA)ベースの記述子です。
この概念を使用して、コングロマリットなどの腫瘍の壊死の幾何学的特性を定量化する新しいインデックスであるサブコンプレックスラクナリティを定義します。
このフレームワークに基づいて、壊死の形態を分析し、腫瘍の壊死領域の明確な構造的および幾何学的特性をキャプチャする図を作成するための一連の指標を提案します。
膠芽腫(GB)のMRIの研究でこのフレームワークの応用を提示します。
クラスター分析を使用して、壊死領域の幾何学的特性を反映する膠芽腫の4つの異なるサブタイプを特定します。

要約(オリジナル)

In this paper, we introduce a shape descriptor that we call ‘interior function’. This is a Topological Data Analysis (TDA) based descriptor that refines previous descriptors for image analysis. Using this concept, we define subcomplex lacunarity, a new index that quantifies geometric characteristics of necrosis in tumors such as conglomeration. Building on this framework, we propose a set of indices to analyze necrotic morphology and construct a diagram that captures the distinct structural and geometric properties of necrotic regions in tumors. We present an application of this framework in the study of MRIs of Glioblastomas (GB). Using cluster analysis, we identify four distinct subtypes of Glioblastomas that reflect geometric properties of necrotic regions.

arxiv情報

著者 Francisco Tellez,Enrique Torres-Giese
発行日 2025-03-21 17:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.AT | A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas はコメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

要約

音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に生成することは、仮想現実や映画産業にとって不可欠です。
ただし、既存の方法に適切なビートアライメントがなく、不自然な動きのダイナミクスを示すため、自然に音楽を追跡するダンスを生成することは依然として課題のままです。
このペーパーでは、ゲーティングメカニズムを活用して音楽駆動型のダンス生成のリズムアウェア機能表現を強化するためのゲーティングメカニズムを活用する斬新なフレームワークであるDanceBaを提案します。
具体的には、音楽段階のデータからリズミカルな情報を正確に抽出し、音楽の本質的な周期性と時間的構造を活用するために、位相ベースのリズム抽出(pre)を導入します。
さらに、グローバルなリズミカルな特徴に焦点を当て、ダンスの動きが音楽のリズムに密接に従うことを保証するために、一時的な因果関係の因果関係(TGCA)を提案します。
また、並列マンバモーションモデリング(PMMM)アーキテクチャを導入して、音楽の特徴とともに上半身と下半身の動きを個別にモデル化し、それによって生成されたダンスの動きの自然性と多様性を改善します。
大規模な実験では、DanceBaが最先端の方法を上回り、リズミカルなアライメントと運動の多様性を大幅に優れていることを確認しています。
プロジェクトページ:https://danceba.github.io/。

要約(オリジナル)

Automatically generating natural, diverse and rhythmic human dance movements driven by music is vital for virtual reality and film industries. However, generating dance that naturally follows music remains a challenge, as existing methods lack proper beat alignment and exhibit unnatural motion dynamics. In this paper, we propose Danceba, a novel framework that leverages gating mechanism to enhance rhythm-aware feature representation for music-driven dance generation, which achieves highly aligned dance poses with enhanced rhythmic sensitivity. Specifically, we introduce Phase-Based Rhythm Extraction (PRE) to precisely extract rhythmic information from musical phase data, capitalizing on the intrinsic periodicity and temporal structures of music. Additionally, we propose Temporal-Gated Causal Attention (TGCA) to focus on global rhythmic features, ensuring that dance movements closely follow the musical rhythm. We also introduce Parallel Mamba Motion Modeling (PMMM) architecture to separately model upper and lower body motions along with musical features, thereby improving the naturalness and diversity of generated dance movements. Extensive experiments confirm that Danceba outperforms state-of-the-art methods, achieving significantly better rhythmic alignment and motion diversity. Project page: https://danceba.github.io/ .

arxiv情報

著者 Congyi Fan,Jian Guan,Xuanjia Zhao,Dongli Xu,Youtian Lin,Tong Ye,Pengming Feng,Haiwei Pan
発行日 2025-03-21 17:42:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation はコメントを受け付けていません

Dereflection Any Image with Diffusion Priors and Diversified Data

要約

ターゲットシーンと不要な反射の間の複雑な絡み合いにより、単一の画像の反射除去は非常に困難なタスクのままです。
大幅に進歩したにもかかわらず、既存の方法は、高品質で多様なデータと不十分な復元症が不十分であることによって妨げられ、さまざまな現実世界のシナリオにおける一般化が限られています。
このホワイトペーパーでは、任意の画像、効率的なデータ準備パイプラインを備えた包括的なソリューション、および堅牢な反射除去のための一般化可能なモデルを提案します。
まず、ターゲットシーンでランダムに回転する反射媒体によって作成されたDiverse Reflection Removal(DRR)という名前のデータセットを導入し、反射角と強度のバリエーションを可能にし、規模、品質、多様性の新しいベンチマークを設定します。
第二に、決定論的な出力と高速推論のためのワンステップ拡散を備えた拡散ベースのフレームワークを提案します。
安定した学習を確保するために、私たちは、データセットを特徴付けるさまざまな反射パターン全体で一貫した出力を促進するために、反射不変性の微調整を含む3段階のプログレッシブトレーニング戦略を設計します。
広範な実験は、私たちの方法が一般的なベンチマークと挑戦的な野生画像の両方でSOTAパフォーマンスを達成し、多様な現実世界のシーン全体で優れた一般化を示すことを示しています。

要約(オリジナル)

Reflection removal of a single image remains a highly challenging task due to the complex entanglement between target scenes and unwanted reflections. Despite significant progress, existing methods are hindered by the scarcity of high-quality, diverse data and insufficient restoration priors, resulting in limited generalization across various real-world scenarios. In this paper, we propose Dereflection Any Image, a comprehensive solution with an efficient data preparation pipeline and a generalizable model for robust reflection removal. First, we introduce a dataset named Diverse Reflection Removal (DRR) created by randomly rotating reflective mediums in target scenes, enabling variation of reflection angles and intensities, and setting a new benchmark in scale, quality, and diversity. Second, we propose a diffusion-based framework with one-step diffusion for deterministic outputs and fast inference. To ensure stable learning, we design a three-stage progressive training strategy, including reflection-invariant finetuning to encourage consistent outputs across varying reflection patterns that characterize our dataset. Extensive experiments show that our method achieves SOTA performance on both common benchmarks and challenging in-the-wild images, showing superior generalization across diverse real-world scenes.

arxiv情報

著者 Jichen Hu,Chen Yang,Zanwei Zhou,Jiemin Fang,Xiaokang Yang,Qi Tian,Wei Shen
発行日 2025-03-21 17:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dereflection Any Image with Diffusion Priors and Diversified Data はコメントを受け付けていません

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

要約

異なるモダリティ(オーディオとビジュアル)にわたるイベントの時間的ローカリゼーションと分類に焦点を当てた視聴覚イベント認識のドメインでは、既存のアプローチは、トレーニングデータで利用可能な語彙によって制約されます。
この制限は、斬新で目に見えないイベントカテゴリに一般化する能力を大幅に妨げます。
さらに、このタスクの注釈プロセスは労働集約的であり、モダリティと時間セグメント全体の広範な手動ラベル付けが必要であり、現在の方法のスケーラビリティを制限します。
現在の最先端のモデルは、時間の経過に伴うイベント分布のシフトを無視し、ビデオダイナミクスの変化に適応する能力を低下させます。
さらに、以前の方法は、オーディオと視覚情報を組み合わせるために後期融合に依存しています。
簡単ですが、このアプローチはマルチモーダル相互作用の大幅な損失をもたらします。
これらの課題に対処するために、オーディオビジュアルアダプティブビデオ分析($ \ text {av}^2 \ text {a} $)を提案します。これは、さらなるトレーニングを必要とせず、より豊富なマルチモーダル相互作用を維持するためのスコアレベルの融合技術を統合するモデルに依存しないアプローチです。
$ \ text {av}^2 \ text {a} $には、ビデオ内のレーベルシフトアルゴリズムも含まれています。これは、以前のフレームから入力ビデオデータと予測を活用して、後続のフレームのイベント分布を動的に調整します。
さらに、オーディオビジュアルイベント認識のための最初のトレーニングフリーのオープンボキャブラリーベースラインを提示し、$ \ Text {AV}^2 \ Text {A} $が、素朴なトレーニングのないベースラインよりも実質的な改善を達成することを示しています。
ゼロショットと弱く監視されている最先端の方法の両方で、$ \ text {av}^2 \ text {a} $の有効性を実証し、既存のアプローチよりもパフォーマンスメトリックの顕著な改善を達成します。

要約(オリジナル)

In the domain of audio-visual event perception, which focuses on the temporal localization and classification of events across distinct modalities (audio and visual), existing approaches are constrained by the vocabulary available in their training data. This limitation significantly impedes their capacity to generalize to novel, unseen event categories. Furthermore, the annotation process for this task is labor-intensive, requiring extensive manual labeling across modalities and temporal segments, limiting the scalability of current methods. Current state-of-the-art models ignore the shifts in event distributions over time, reducing their ability to adjust to changing video dynamics. Additionally, previous methods rely on late fusion to combine audio and visual information. While straightforward, this approach results in a significant loss of multimodal interactions. To address these challenges, we propose Audio-Visual Adaptive Video Analysis ($\text{AV}^2\text{A}$), a model-agnostic approach that requires no further training and integrates a score-level fusion technique to retain richer multimodal interactions. $\text{AV}^2\text{A}$ also includes a within-video label shift algorithm, leveraging input video data and predictions from prior frames to dynamically adjust event distributions for subsequent frames. Moreover, we present the first training-free, open-vocabulary baseline for audio-visual event perception, demonstrating that $\text{AV}^2\text{A}$ achieves substantial improvements over naive training-free baselines. We demonstrate the effectiveness of $\text{AV}^2\text{A}$ on both zero-shot and weakly-supervised state-of-the-art methods, achieving notable improvements in performance metrics over existing approaches.

arxiv情報

著者 Eitan Shaar,Ariel Shaulov,Gal Chechik,Lior Wolf
発行日 2025-03-21 17:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds はコメントを受け付けていません

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

要約

ビジョン言語モデル(VLM)は、オブジェクトの識別と記述に優れていますが、オブジェクトの相対的な位置を正確に理解するなどの空間的推論と闘っています。
ヒトビジョンのデュアルパスウェイ(腹側)モデルに触発されたことで、オブジェクト認識能力が強いにもかかわらずVLMSが空間タスクを失敗させる理由を調査します。
私たちの解釈可能性駆動型分析は、重要な根本的な原因を明らかにしています。VLMの視力埋め込みは、主に意味的に「袋の袋」として扱われ、不均衡に大きな埋め込み基準のために微妙でありながら重要な位置的キューを覆い隠します。
広範な診断実験を通じてこの洞察を検証し、トークンの注文または細粒の空間の詳細が削除されたときのパフォーマンスへの影響を最小限に抑えます。
これらの調査結果に導かれて、視力の正規化や中層の空間的に豊富な特徴の抽出を含む、視力の正規化や抽出を含む、単純で解釈可能な介入を提案し、空間的認識を回復します。
当社の合成データと標準ベンチマークの両方の経験的結果は、解釈可能性に基づいた設計の選択の価値を強調し、空間的推論能力の改善を示しています。
私たちの研究は、現在のVLMアーキテクチャの基本的な制限を明らかにするだけでなく、視覚シーンの構造化された知覚を強化するための実用的な洞察も提供します。

要約(オリジナル)

Vision-Language Models (VLMs) excel at identifying and describing objects but struggle with spatial reasoning such as accurately understanding the relative positions of objects. Inspired by the dual-pathway (ventral-dorsal) model of human vision, we investigate why VLMs fail spatial tasks despite strong object recognition capabilities. Our interpretability-driven analysis reveals a critical underlying cause: vision embeddings in VLMs are treated primarily as semantic “bag-of-tokens,’ overshadowing subtle yet crucial positional cues due to their disproportionately large embedding norms. We validate this insight through extensive diagnostic experiments, demonstrating minimal performance impact when token orders or fine-grained spatial details are removed. Guided by these findings, we propose simple, interpretable interventions, including normalizing vision embedding norms and extracting mid-layer spatially rich features, to restore spatial awareness. Empirical results on both our synthetic data and standard benchmarks demonstrate improved spatial reasoning capabilities, highlighting the value of interpretability-informed design choices. Our study not only uncovers fundamental limitations in current VLM architectures but also provides actionable insights for enhancing structured perception of visual scenes.

arxiv情報

著者 Jianing Qi,Jiawei Liu,Hao Tang,Zhigang Zhu
発行日 2025-03-21 17:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models はコメントを受け付けていません

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

要約

モーション転送タスクでは、ソースビデオから新しく生成されたビデオにモーションを転送することが含まれ、モデルが外観からモーションを切り離す必要があります。
以前の拡散ベースの方法は、主に3D U-NET内の個別の空間的および時間的注意メカニズムに依存しています。
対照的に、最先端のビデオ拡散変圧器(DIT)モデルは、3D完全な注意を使用していますが、これは明示的に時間的情報と空間情報を分離しません。
したがって、空間的寸法と時間的寸法の間の相互作用により、DITモデルのモーションと外観の分離と外観がより困難になります。
この論文では、DITモデルを適応させてモーショントランスファー能力を向上させる方法であるDetを提案します。
私たちのアプローチでは、シンプルでありながら効果的な時間カーネルを導入して、時間の次元に沿って滑らかにする機能を滑らかにし、背景の外観からの前景の動きの分離を促進します。
一方、時間カーネルは、運動に密接に関連するDIT機能の時間的変動を効果的にキャプチャします。
さらに、潜在的な特徴空間に密集した軌跡に沿った明示的な監督を導入して、運動の一貫性をさらに強化します。
さらに、モーション転送の一般的で挑戦的なベンチマークであるMtbenchを提示します。
また、グローバルとローカルのモーションの類似性の両方を考慮するハイブリッドモーションフィデリティメトリックも導入します。
したがって、私たちの仕事は、以前の作品よりも包括的な評価を提供します。
Mtbenchでの広範な実験は、DETがモーションフィデリティとフィデリティの編集の間の最高のトレードオフを達成することを示しています。

要約(オリジナル)

The motion transfer task involves transferring motion from a source video to newly generated videos, requiring the model to decouple motion from appearance. Previous diffusion-based methods primarily rely on separate spatial and temporal attention mechanisms within 3D U-Net. In contrast, state-of-the-art video Diffusion Transformers (DiT) models use 3D full attention, which does not explicitly separate temporal and spatial information. Thus, the interaction between spatial and temporal dimensions makes decoupling motion and appearance more challenging for DiT models. In this paper, we propose DeT, a method that adapts DiT models to improve motion transfer ability. Our approach introduces a simple yet effective temporal kernel to smooth DiT features along the temporal dimension, facilitating the decoupling of foreground motion from background appearance. Meanwhile, the temporal kernel effectively captures temporal variations in DiT features, which are closely related to motion. Moreover, we introduce explicit supervision along dense trajectories in the latent feature space to further enhance motion consistency. Additionally, we present MTBench, a general and challenging benchmark for motion transfer. We also introduce a hybrid motion fidelity metric that considers both the global and local motion similarity. Therefore, our work provides a more comprehensive evaluation than previous works. Extensive experiments on MTBench demonstrate that DeT achieves the best trade-off between motion fidelity and edit fidelity.

arxiv情報

著者 Qingyu Shi,Jianzong Wu,Jinbin Bai,Jiangning Zhang,Lu Qi,Xiangtai Li,Yunhai Tong
発行日 2025-03-21 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer はコメントを受け付けていません

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

要約

バイタルサインのリモート推定により、コンタクトベースのデバイスが利用できない、邪魔すぎる、または高すぎる状況の健康監視が可能になります。
このホワイトペーパーでは、公開されているデータセットで最先端の結果を達成する顔のビデオからのパルス信号推定のモジュール式、解釈可能なパイプラインを提示します。私たちのイメージングフォトプレチスモグラフィ(IPPG)システムは、顔とランドマークの検出、時期抽出、パルス信号/パルス率の推定の3つのモジュールで構成されています。
入力ビデオから出力信号または心拍数に直接マッピングする単一のブラックボックスモデルを使用する多くの深い学習方法とは異なり、モジュラーアプローチにより、パイプラインの3つの部分を個別に解釈できます。
カブ(ノイズロボストイメージングフォトプレチスモグラフィの再発を伴うタイムシリーズU-NET)と呼ばれるパルス信号推定モジュールにより、システムは基礎となるパルス信号波形を忠実に再構築し、動きの存在であっても心拍数とパルスレートの変動性メトリックを測定するために使用できます。
極端なヘッドポーズのために顔の一部が閉塞されると、システムはそのような「自己閉鎖」領域を明示的に検出し、情報が欠落しているにもかかわらず推定の堅牢性を維持します。
私たちのアルゴリズムは、特殊なセンサーや皮膚との接触を必要とせずに信頼できる心拍数の推定値を提供し、色(RGB)と近赤外(NIR)データセットの両方で以前のIPPGメソッドを上回ります。

要約(オリジナル)

Remote estimation of vital signs enables health monitoring for situations in which contact-based devices are either not available, too intrusive, or too expensive. In this paper, we present a modular, interpretable pipeline for pulse signal estimation from video of the face that achieves state-of-the-art results on publicly available datasets.Our imaging photoplethysmography (iPPG) system consists of three modules: face and landmark detection, time-series extraction, and pulse signal/pulse rate estimation. Unlike many deep learning methods that make use of a single black-box model that maps directly from input video to output signal or heart rate, our modular approach enables each of the three parts of the pipeline to be interpreted individually. The pulse signal estimation module, which we call TURNIP (Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography), allows the system to faithfully reconstruct the underlying pulse signal waveform and uses it to measure heart rate and pulse rate variability metrics, even in the presence of motion. When parts of the face are occluded due to extreme head poses, our system explicitly detects such ‘self-occluded’ regions and maintains estimation robustness despite the missing information. Our algorithm provides reliable heart rate estimates without the need for specialized sensors or contact with the skin, outperforming previous iPPG methods on both color (RGB) and near-infrared (NIR) datasets.

arxiv情報

著者 Vineet R. Shenoy,Shaoju Wu,Armand Comas,Tim K. Marks,Suhas Lohit,Hassan Mansour
発行日 2025-03-21 17:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography はコメントを受け付けていません

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

要約

Deepseek-R1によって実証された最近の進歩は、自己検証や自己修正などの洗練された行動を含む、大規模な言語モデル(LLM)の複雑な推論能力が、検証可能な報酬でRLによって達成され、AIMEなどの挑戦的なタスクのモデルパフォーマンスが大幅に向上することを示しています。
これらの調査結果に動機付けられている私たちの研究では、同様の推論機能を大規模な視覚言語モデル(LVLMS)にうまく統合できるかどうかを調査し、挑戦的なマルチモーダル推論タスクへの影響を評価します。
モデルの一般化をさらに改善するために、軽量トレーニングデータと強化学習(RL)の監視された微調整(SFT)を繰り返し活用するアプローチを検討します。
当初、推論機能は、多様な視覚データセットから供給された画像の高品質のキャプションを使用して推論ステップを生成することにより、純粋なテキストR1モデルから蒸留されました。
その後、反復RLトレーニングは、各反復のRL改善モデルが次のラウンドの洗練されたSFTデータセットを生成することで、推論スキルをさらに向上させます。
この反復プロセスは、Mathvista、Mathverse、MathVisionなどの挑戦的なベンチマークの推論パフォーマンスを一貫して改善するLVLMであるOpenVLThinkerを生み出し、堅牢なビジョン言語推論のための戦略の可能性を実証しました。
コード、モデル、データはhttps://github.com/yihedeng9/openvlthinkerに保持されています。

要約(オリジナル)

Recent advancements demonstrated by DeepSeek-R1 have shown that complex reasoning abilities in large language models (LLMs), including sophisticated behaviors such as self-verification and self-correction, can be achieved by RL with verifiable rewards and significantly improves model performance on challenging tasks such as AIME. Motivated by these findings, our study investigates whether similar reasoning capabilities can be successfully integrated into large vision-language models (LVLMs) and assesses their impact on challenging multimodal reasoning tasks. We consider an approach that iteratively leverages supervised fine-tuning (SFT) on lightweight training data and Reinforcement Learning (RL) to further improve model generalization. Initially, reasoning capabilities were distilled from pure-text R1 models by generating reasoning steps using high-quality captions of the images sourced from diverse visual datasets. Subsequently, iterative RL training further enhance reasoning skills, with each iteration’s RL-improved model generating refined SFT datasets for the next round. This iterative process yielded OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on challenging benchmarks such as MathVista, MathVerse, and MathVision, demonstrating the potential of our strategy for robust vision-language reasoning. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.

arxiv情報

著者 Yihe Deng,Hritik Bansal,Fan Yin,Nanyun Peng,Wei Wang,Kai-Wei Chang
発行日 2025-03-21 17:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement はコメントを受け付けていません