「cs.CV」カテゴリーアーカイブ

Dereflection Any Image with Diffusion Priors and Diversified Data

投稿日: 2025年3月24日作成者: jarxiv

要約ターゲットシーンと不要な反射の間の複雑な絡み合いにより、単一の画像の反射除 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

投稿日: 2025年3月24日作成者: jarxiv

要約異なるモダリティ（オーディオとビジュアル）にわたるイベントの時間的ローカリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

投稿日: 2025年3月24日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、オブジェクトの識別と記述に優れていますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

投稿日: 2025年3月24日作成者: jarxiv

要約モーション転送タスクでは、ソースビデオから新しく生成されたビデオにモーショ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

投稿日: 2025年3月24日作成者: jarxiv

要約バイタルサインのリモート推定により、コンタクトベースのデバイスが利用できな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

投稿日: 2025年3月24日作成者: jarxiv

要約 Deepseek-R1によって実証された最近の進歩は、自己検証や自己修正な … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

TopoDiffusionNet: A Topology-aware Diffusion Model

投稿日: 2025年3月24日作成者: jarxiv

要約拡散モデルは、視覚的に印象的な画像の作成に優れていますが、指定されたトポロ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

投稿日: 2025年3月24日作成者: jarxiv

要約多くのロボット工学およびVR/ARアプリケーションでは、カメラの動きが高速 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Position: Interactive Generative Video as Next-Generation Game Engine

投稿日: 2025年3月24日作成者: jarxiv

要約現代のゲーム開発は、従来のゲームエンジンの所定のコンテンツにより、創造性と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

URLOST: Unsupervised Representation Learning without Stationarity or Topology

投稿日: 2025年3月24日作成者: jarxiv

要約監視されていない表現学習は、大きな進歩を遂げています。ただし、ドメイン固 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Dereflection Any Image with Diffusion Priors and Diversified Data

Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

Time-Series U-Net with Recurrence for Noise-Robust Imaging Photoplethysmography

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

TopoDiffusionNet: A Topology-aware Diffusion Model

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Position: Interactive Generative Video as Next-Generation Game Engine

URLOST: Unsupervised Representation Learning without Stationarity or Topology

最近の投稿

最近のコメント

アーカイブ

カテゴリー