「cs.CV」カテゴリーアーカイブ

Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios

投稿日: 2024年11月4日作成者: jarxiv

要約音声による同時ジェスチャー生成は、人間とコンピュータのコミュニケーション、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

投稿日: 2024年11月4日作成者: jarxiv

要約ロングコンテクスト機能は、マルチモーダル基礎モデル、特に長時間のビデオ理解 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

FRoundation: Are Foundation Models Ready for Face Recognition?

投稿日: 2024年11月4日作成者: jarxiv

要約ファンデーションモデルは主に、非常に多様で大規模なデータセットに対して、教 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improving Generalization in Visual Reasoning via Self-Ensemble

投稿日: 2024年11月4日作成者: jarxiv

要約視覚的推論の認知能力には、マルチモーダルな知覚処理と世界に関する常識的・外 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video Diffusion Models are Training-free Motion Interpreter and Controller

投稿日: 2024年11月4日作成者: jarxiv

要約ビデオ生成は主に、フレームをまたがる本物のカスタマイズされたモーションをモ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

On-Air Deep Learning Integrated Semantic Inference Models for Enhanced Earth Observation Satellite Networks

投稿日: 2024年11月4日作成者: jarxiv

要約地球観測（EO）システムは、地図作成、災害監視、資源管理にとって極めて重要 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.NI | コメントを受け付けていません

Kuro Siwo: 33 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping

投稿日: 2024年11月4日作成者: jarxiv

要約気候変動によって悪化した世界の洪水は、人命、インフラ、環境に深刻な脅威をも … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, I.2 | コメントを受け付けていません

ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty

投稿日: 2024年11月4日作成者: jarxiv

要約本論文では、不確実な環境におけるリアルタイムの{color{black}( … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video

投稿日: 2024年11月4日作成者: jarxiv

要約弱教師付きビデオオブジェクトセグメンテーション（WSVOS）は、オブジェク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Autoregressive Image Generation without Vector Quantization

投稿日: 2024年11月4日作成者: jarxiv

要約従来の常識では、画像生成のための自己回帰モデルは一般的にベクトル化されたト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

FRoundation: Are Foundation Models Ready for Face Recognition?

Improving Generalization in Visual Reasoning via Self-Ensemble

Video Diffusion Models are Training-free Motion Interpreter and Controller

On-Air Deep Learning Integrated Semantic Inference Models for Enhanced Earth Observation Satellite Networks

Kuro Siwo: 33 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping

ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty

Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video

Autoregressive Image Generation without Vector Quantization

最近の投稿

最近のコメント

アーカイブ

カテゴリー