-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Weakly-Supervised Temporal Article Grounding
要約 トリミングされていない長いビデオと自然言語のクエリが与えられた場合、ビデオ … 続きを読む
Attention-Aware Anime Line Drawing Colorization
要約 アニメの線画の自動彩色は、アニメ業界に大きなメリットをもたらすことから、近 … 続きを読む
HDR image watermarking using saliency detection and quantization index modulation
要約 ハイ ダイナミック レンジ (HDR) 画像は、インターネット上で急速に流 … 続きを読む
Topic-switch adapted Japanese Dialogue System based on PLATO-2
要約 PLATO-2 などの大規模なオープン ドメイン対話システムは、英語と中国 … 続きを読む
Saliency detection and quantization index modulation based high payload HDR image watermarking
要約 ハイ ダイナミック レンジ (HDR) 画像は、インターネット上で急速に流 … 続きを読む
Video-Text Retrieval by Supervised Multi-Space Multi-Grained Alignment
要約 ビデオテキスト検索の最近の進歩は、より良い表現学習の探求によって進歩しまし … 続きを読む
MultiViz: Towards Visualizing and Understanding Multimodal Models
要約 現実世界のアプリケーションに対するマルチモーダル モデルの可能性は、利害関 … 続きを読む
Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions
要約 マルチモーダル機械学習は、言語、音響、視覚、触覚、生理学的メッセージなど、 … 続きを読む
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey
要約 一般化された深いモデルに対する緊急の需要により、BERT、ViT、GPT … 続きを読む
Foundation Models for Natural Language Processing — Pre-trained Language Models Integrating Media
要約 このオープン アクセス ブックは、Foundation Models の研 … 続きを読む