月別アーカイブ: 2025年1月

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

要約 オムニモーダル学習の最近の進歩は、主に独自のモデル内ではあるものの、画像、 … 続きを読む

カテゴリー: cs.CL, cs.CV | OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis はコメントを受け付けていません

Learnable Scaled Gradient Descent for Guaranteed Robust Tensor PCA

要約 ロバストテンソル主成分分析 (RTPCA) は、多次元データから低ランク成 … 続きを読む

カテゴリー: cs.CV | Learnable Scaled Gradient Descent for Guaranteed Robust Tensor PCA はコメントを受け付けていません

Supervision-free Vision-Language Alignment

要約 視覚言語モデル (VLM) は、視覚情報と言語情報の統合において顕著な可能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Supervision-free Vision-Language Alignment はコメントを受け付けていません

PointDreamer: Zero-shot 3D Textured Mesh Reconstruction from Colored Point Cloud

要約 カラー点群からテクスチャ メッシュを再構築することは重要ですが、困難な作業 … 続きを読む

カテゴリー: cs.CV | PointDreamer: Zero-shot 3D Textured Mesh Reconstruction from Colored Point Cloud はコメントを受け付けていません

Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

要約 デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む

カテゴリー: cs.CV, cs.MM | Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision はコメントを受け付けていません

Towards Revisiting Visual Place Recognition for Joining Submaps in Multimap SLAM

要約 Visual SLAM は、多くの自律システムにとって重要なテクノロジーで … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Revisiting Visual Place Recognition for Joining Submaps in Multimap SLAM はコメントを受け付けていません

Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models

要約 Salient Object Detection (SOD) は、シーン内 … 続きを読む

カテゴリー: cs.CV | Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models はコメントを受け付けていません

Identity-Preserving Video Dubbing Using Motion Warping

要約 ビデオダビングは、リファレンスビデオと運転音声信号からリアルなリップシンク … 続きを読む

カテゴリー: cs.CV | Identity-Preserving Video Dubbing Using Motion Warping はコメントを受け付けていません

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

要約 ビジョン トランスフォーマー (ViT) は、セルフ アテンション メカニ … 続きを読む

カテゴリー: cs.CV | LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity はコメントを受け付けていません

FrontierNet: Learning Visual Cues to Explore

要約 未知の環境の探索は自律ロボットにとって非常に重要です。 これにより、地図作 … 続きを読む

カテゴリー: cs.CV, cs.RO | FrontierNet: Learning Visual Cues to Explore はコメントを受け付けていません