「cs.CV」カテゴリーアーカイブ

Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow

投稿日: 2025年6月10日作成者: jarxiv

要約イベントカメラは、標準のフレームベースのカメラで以前は考えられなかった新し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffusion Counterfactual Generation with Semantic Abduction

投稿日: 2025年6月10日作成者: jarxiv

要約反事実的な画像生成は、アイデンティティの保存、知覚の質の維持、根本的な因果 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | コメントを受け付けていません

CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing

投稿日: 2025年6月10日作成者: jarxiv

要約空中および衛星画像の可用性が高まるにつれて、ディープラーニングは、輸送資産 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EgoM2P: Egocentric Multimodal Multitask Pretraining

投稿日: 2025年6月10日作成者: jarxiv

要約 RGBビデオ、深さ、カメラのポーズ、視線などのエゴセントリックビジョンにお … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection

投稿日: 2025年6月10日作成者: jarxiv

要約現代の視覚認識システムは大きな進歩を遂げていますが、多くは少数の模範から学 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Video Unlearning via Low-Rank Refusal Vector

投稿日: 2025年6月10日作成者: jarxiv

要約ビデオ生成モデルは、次の直感的な指導を通じて視覚コンテンツの作成を民主化し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution

投稿日: 2025年6月10日作成者: jarxiv

要約ネイティブトレーニングの解決を超えて、3Dガウススプラッティング（3DG） … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

投稿日: 2025年6月10日作成者: jarxiv

要約拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

投稿日: 2025年6月10日作成者: jarxiv

要約拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性デー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

投稿日: 2025年6月10日作成者: jarxiv

要約 Deepseek-R1などのテキストベースの推論モデルの成功に基づいて、こ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow

Diffusion Counterfactual Generation with Semantic Abduction

CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing

EgoM2P: Egocentric Multimodal Multitask Pretraining

SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection

Video Unlearning via Low-Rank Refusal Vector

GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution

Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー