-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models
要約 敵対的生成ネットワーク (GAN) を使用した画像超解像度 (SR) は、 … 続きを読む
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
要約 本研究では、画像や動画などの非言語的モダリティを含む理解・生成タスクをフロ … 続きを読む
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
要約 この研究では、凍結された LLM が画像やビデオなどの非言語モダリティを含 … 続きを読む
$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection
要約 可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間ア … 続きを読む
Learning to Pan-sharpening with Memories of Spatial Details
要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning
要約 現実世界の問題の多くは、人間がコミュニケーションに使用する話し言葉、ジェス … 続きを読む
MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning
要約 マルチモーダル表現の学習には、複数の異種データ ソースからの情報を統合する … 続きを読む
Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition
要約 感情的なコンピューティング タスクに複数のモダリティを融合することは、パフ … 続きを読む
Movie101: A New Movie Understanding Benchmark
要約 視覚障害者が映画を楽しめるよう、自動映画ナレーション システムは、俳優のセ … 続きを読む
You Can Mask More For Extremely Low-Bitrate Image Compression
要約 学習済み画像圧縮 (LIC) 手法は、近年大幅な進歩を遂げています。 ただ … 続きを読む