-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features
要約 人間の視覚神経表現を解読することは、視覚処理メカニズムを明らかにし、脳のよ … 続きを読む
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究では、発話による会話の顔の生成が大幅に進歩しましたが、生成された … 続きを読む
STEFANN: Scene Text Editor using Font Adaptive Neural Network
要約 キャプチャされたシーンのテキスト情報は、シーンの解釈と意思決定において重要 … 続きを読む
Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization
要約 時間アクション ローカリゼーション (TAL) では、さまざまな期間と複雑 … 続きを読む
From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore
要約 シンガポールは、国民への医療サービスの提供を改善するために努力してきました … 続きを読む
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
要約 LLaMA-Adapter は、LLaMA を命令に従うモデルに効率的に微 … 続きを読む
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning
要約 視覚言語事前トレーニング (VLP) モデルがさまざまなモダリティ間で対応 … 続きを読む
Multi-Modal Few-Shot Temporal Action Detection
要約 少数ショット (FS) とゼロ ショット (ZS) 学習は、時間アクション … 続きを読む