cs.CV」カテゴリーアーカイブ

Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios

要約 音声による同時ジェスチャー生成は、人間とコンピュータのコミュニケーション、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.SD, eess.AS | Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios はコメントを受け付けていません

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

要約 ロングコンテクスト機能は、マルチモーダル基礎モデル、特に長時間のビデオ理解 … 続きを読む

カテゴリー: cs.CL, cs.CV | LongVILA: Scaling Long-Context Visual Language Models for Long Videos はコメントを受け付けていません

FRoundation: Are Foundation Models Ready for Face Recognition?

要約 ファンデーションモデルは主に、非常に多様で大規模なデータセットに対して、教 … 続きを読む

カテゴリー: cs.CV | FRoundation: Are Foundation Models Ready for Face Recognition? はコメントを受け付けていません

Improving Generalization in Visual Reasoning via Self-Ensemble

要約 視覚的推論の認知能力には、マルチモーダルな知覚処理と世界に関する常識的・外 … 続きを読む

カテゴリー: cs.CV | Improving Generalization in Visual Reasoning via Self-Ensemble はコメントを受け付けていません

Video Diffusion Models are Training-free Motion Interpreter and Controller

要約 ビデオ生成は主に、フレームをまたがる本物のカスタマイズされたモーションをモ … 続きを読む

カテゴリー: cs.CV | Video Diffusion Models are Training-free Motion Interpreter and Controller はコメントを受け付けていません

On-Air Deep Learning Integrated Semantic Inference Models for Enhanced Earth Observation Satellite Networks

要約 地球観測(EO)システムは、地図作成、災害監視、資源管理にとって極めて重要 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.NI | On-Air Deep Learning Integrated Semantic Inference Models for Enhanced Earth Observation Satellite Networks はコメントを受け付けていません

Kuro Siwo: 33 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping

要約 気候変動によって悪化した世界の洪水は、人命、インフラ、環境に深刻な脅威をも … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, I.2 | Kuro Siwo: 33 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping はコメントを受け付けていません

ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty

要約 本論文では、不確実な環境におけるリアルタイムの{color{black}( … 続きを読む

カテゴリー: cs.CV, cs.RO | ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty はコメントを受け付けていません

Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video

要約 弱教師付きビデオオブジェクトセグメンテーション(WSVOS)は、オブジェク … 続きを読む

カテゴリー: cs.CV | Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video はコメントを受け付けていません

Autoregressive Image Generation without Vector Quantization

要約 従来の常識では、画像生成のための自己回帰モデルは一般的にベクトル化されたト … 続きを読む

カテゴリー: cs.CV | Autoregressive Image Generation without Vector Quantization はコメントを受け付けていません