cs.CV」カテゴリーアーカイブ

Learnable Scaled Gradient Descent for Guaranteed Robust Tensor PCA

要約 ロバストテンソル主成分分析 (RTPCA) は、多次元データから低ランク成 … 続きを読む

カテゴリー: cs.CV | Learnable Scaled Gradient Descent for Guaranteed Robust Tensor PCA はコメントを受け付けていません

Supervision-free Vision-Language Alignment

要約 視覚言語モデル (VLM) は、視覚情報と言語情報の統合において顕著な可能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Supervision-free Vision-Language Alignment はコメントを受け付けていません

PointDreamer: Zero-shot 3D Textured Mesh Reconstruction from Colored Point Cloud

要約 カラー点群からテクスチャ メッシュを再構築することは重要ですが、困難な作業 … 続きを読む

カテゴリー: cs.CV | PointDreamer: Zero-shot 3D Textured Mesh Reconstruction from Colored Point Cloud はコメントを受け付けていません

Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

要約 デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む

カテゴリー: cs.CV, cs.MM | Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision はコメントを受け付けていません

Towards Revisiting Visual Place Recognition for Joining Submaps in Multimap SLAM

要約 Visual SLAM は、多くの自律システムにとって重要なテクノロジーで … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Revisiting Visual Place Recognition for Joining Submaps in Multimap SLAM はコメントを受け付けていません

Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models

要約 Salient Object Detection (SOD) は、シーン内 … 続きを読む

カテゴリー: cs.CV | Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models はコメントを受け付けていません

Identity-Preserving Video Dubbing Using Motion Warping

要約 ビデオダビングは、リファレンスビデオと運転音声信号からリアルなリップシンク … 続きを読む

カテゴリー: cs.CV | Identity-Preserving Video Dubbing Using Motion Warping はコメントを受け付けていません

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

要約 ビジョン トランスフォーマー (ViT) は、セルフ アテンション メカニ … 続きを読む

カテゴリー: cs.CV | LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity はコメントを受け付けていません

FrontierNet: Learning Visual Cues to Explore

要約 未知の環境の探索は自律ロボットにとって非常に重要です。 これにより、地図作 … 続きを読む

カテゴリー: cs.CV, cs.RO | FrontierNet: Learning Visual Cues to Explore はコメントを受け付けていません

Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion

要約 拡散モデルを使用したテキストから画像への (T2I) 生成の最近の進歩によ … 続きを読む

カテゴリー: cs.CV | Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion はコメントを受け付けていません