cs.CV」カテゴリーアーカイブ

Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow

要約 イベントカメラは、標準のフレームベースのカメラで以前は考えられなかった新し … 続きを読む

カテゴリー: cs.CV | Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow はコメントを受け付けていません

Diffusion Counterfactual Generation with Semantic Abduction

要約 反事実的な画像生成は、アイデンティティの保存、知覚の質の維持、根本的な因果 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Diffusion Counterfactual Generation with Semantic Abduction はコメントを受け付けていません

CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing

要約 空中および衛星画像の可用性が高まるにつれて、ディープラーニングは、輸送資産 … 続きを読む

カテゴリー: cs.CV | CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing はコメントを受け付けていません

EgoM2P: Egocentric Multimodal Multitask Pretraining

要約 RGBビデオ、深さ、カメラのポーズ、視線などのエゴセントリックビジョンにお … 続きを読む

カテゴリー: cs.CV | EgoM2P: Egocentric Multimodal Multitask Pretraining はコメントを受け付けていません

SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection

要約 現代の視覚認識システムは大きな進歩を遂げていますが、多くは少数の模範から学 … 続きを読む

カテゴリー: cs.CV, cs.LG | SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection はコメントを受け付けていません

Video Unlearning via Low-Rank Refusal Vector

要約 ビデオ生成モデルは、次の直感的な指導を通じて視覚コンテンツの作成を民主化し … 続きを読む

カテゴリー: cs.CV | Video Unlearning via Low-Rank Refusal Vector はコメントを受け付けていません

GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution

要約 ネイティブトレーニングの解決を超えて、3Dガウススプラッティング(3DG) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution はコメントを受け付けていません

Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

要約 拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成する … 続きを読む

カテゴリー: cs.CV | Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment はコメントを受け付けていません

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

要約 拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性デー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces はコメントを受け付けていません

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

要約 Deepseek-R1などのテキストベースの推論モデルの成功に基づいて、こ … 続きを読む

カテゴリー: cs.CV | WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning はコメントを受け付けていません