-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Continual Multimodal Knowledge Graph Construction
要約 マルチモーダル ナレッジ グラフ構築 (MMKC) とは、テキスト、画像、 … 続きを読む
HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform
要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む
Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models
要約 マルチモーダル感情分析は、ユーザーの内面を理解する上で重要な分野である。深 … 続きを読む
HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform
要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む
GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content
要約 モバイルクラウドゲーム業界は、ここ10年で急速に成長している。クラウドサー … 続きを読む
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む
Image Captioners Sometimes Tell More Than Images They See
要約 タイトル:画像説明の正確さは時に、画像そのものよりも高くなる 要約: &# … 続きを読む
V2Meow: Meowing to the Visual Beat via Music Generation
要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval
要約 【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語 … 続きを読む
Interpretable Multimodal Misinformation Detection with Logic Reasoning
要約 タイトル:論理推論による解釈可能なマルチモーダル偽情報検出 要約:  … 続きを読む