月別アーカイブ: 2025年3月

SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum

要約 エンドツーエンドの視覚ドローンナビゲーションのために、Sous Videと … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum はコメントを受け付けていません

A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas

要約 この論文では、「内部関数」と呼ばれる形状記述子を紹介します。 これは、画像 … 続きを読む

カテゴリー: cs.CV, math.AT | A Topological Data Analysis Framework for Quantifying Necrosis in Glioblastomas はコメントを受け付けていません

Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation

要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation はコメントを受け付けていません

Dereflection Any Image with Diffusion Priors and Diversified Data

要約 ターゲットシーンと不要な反射の間の複雑な絡み合いにより、単一の画像の反射除 … 続きを読む

カテゴリー: cs.CV | Dereflection Any Image with Diffusion Priors and Diversified Data はコメントを受け付けていません

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

要約 異なるモダリティ(オーディオとビジュアル)にわたるイベントの時間的ローカリ … 続きを読む

カテゴリー: cs.CV | Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds はコメントを受け付けていません

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

要約 ビジョン言語モデル(VLM)は、オブジェクトの識別と記述に優れていますが、 … 続きを読む

カテゴリー: cs.CV | Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models はコメントを受け付けていません

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

要約 モーション転送タスクでは、ソースビデオから新しく生成されたビデオにモーショ … 続きを読む

カテゴリー: cs.CV | Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer はコメントを受け付けていません

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

要約 バイタルサインのリモート推定により、コンタクトベースのデバイスが利用できな … 続きを読む

カテゴリー: cs.CV | Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography はコメントを受け付けていません

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

要約 Deepseek-R1によって実証された最近の進歩は、自己検証や自己修正な … 続きを読む

カテゴリー: cs.CL, cs.CV | OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement はコメントを受け付けていません

TopoDiffusionNet: A Topology-aware Diffusion Model

要約 拡散モデルは、視覚的に印象的な画像の作成に優れていますが、指定されたトポロ … 続きを読む

カテゴリー: cs.CV | TopoDiffusionNet: A Topology-aware Diffusion Model はコメントを受け付けていません