月別アーカイブ: 2025年3月

SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum

投稿日: 2025年3月24日作成者: jarxiv

要約エンドツーエンドの視覚ドローンナビゲーションのために、Sous Videと … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas

投稿日: 2025年3月24日作成者: jarxiv

要約この論文では、「内部関数」と呼ばれる形状記述子を紹介します。これは、画像 … 続きを読む →

カテゴリー: cs.CV, math.AT | コメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

投稿日: 2025年3月24日作成者: jarxiv

要約音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Dereflection Any Image with Diffusion Priors and Diversified Data

投稿日: 2025年3月24日作成者: jarxiv

要約ターゲットシーンと不要な反射の間の複雑な絡み合いにより、単一の画像の反射除 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

投稿日: 2025年3月24日作成者: jarxiv

要約異なるモダリティ（オーディオとビジュアル）にわたるイベントの時間的ローカリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

投稿日: 2025年3月24日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、オブジェクトの識別と記述に優れていますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

投稿日: 2025年3月24日作成者: jarxiv

要約モーション転送タスクでは、ソースビデオから新しく生成されたビデオにモーショ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

投稿日: 2025年3月24日作成者: jarxiv

要約バイタルサインのリモート推定により、コンタクトベースのデバイスが利用できな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

投稿日: 2025年3月24日作成者: jarxiv

要約 Deepseek-R1によって実証された最近の進歩は、自己検証や自己修正な … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

TopoDiffusionNet: A Topology-aware Diffusion Model

投稿日: 2025年3月24日作成者: jarxiv

要約拡散モデルは、視覚的に印象的な画像の作成に優れていますが、指定されたトポロ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum

A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

Dereflection Any Image with Diffusion Priors and Diversified Data

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

TopoDiffusionNet: A Topology-aware Diffusion Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー