-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
Kandinsky 3.0 Technical Report
要約 我々は、潜在拡散に基づく大規模なテキストから画像への生成モデルである Ka … 続きを読む
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
要約 ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オ … 続きを読む
Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers
要約 深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む
OneLLM: One Framework to Align All Modalities with Language
要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む
VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing
要約 ビデオ ダビングは、映画やテレビ番組の元の音声をターゲット言語の音声に翻訳 … 続きを読む
Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、視 … 続きを読む
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
要約 広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む
Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts
要約 無人航空機 (UAV) をリアルタイムで検出するために、コンピューター ビ … 続きを読む
Rethinking Event-based Human Pose Estimation with 3D Event Representations
要約 人間の姿勢推定は、コンピュータビジョンにおける基本的かつ魅力的なタスクであ … 続きを読む
RTQ: Rethinking Video-language Understanding Based on Image-text Model
要約 ビデオ言語理解における最近の進歩は、画像-テキストモデルの基礎の上に確立さ … 続きを読む