-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Lost in Overlap: Exploring Watermark Collision in LLMs
要約 コンテンツ生成における大規模言語モデル (LLM) の急増により、テキスト … 続きを読む
3D Gaussian Editing with A Single Image
要約 現実世界からキャプチャされた 3D シーンのモデリングと操作は、さまざまな … 続きを読む
End-to-end Semantic-centric Video-based Multimodal Affective Computing
要約 汎用人工知能 (AGI) への道において、人間の愛情を理解することは、機械 … 続きを読む
Generative AI for Immersive Communication: The Next Frontier in Internet-of-Senses Through 6G
要約 過去 20 年にわたり、モノのインターネット (IoT) は変革的な概念と … 続きを読む
Diseño de sonido para producciones audiovisuales e historias sonoras en el aula. Hacia una docencia creativa mediante el uso de herramientas inteligentes
要約 この研究は、オーディオビジュアル作品のサウンドデザインを教えた教育経験を共 … 続きを読む
DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection
要約 赤外線可視物体検出は、赤外線画像と可視画像のペアの補完情報を活用することで … 続きを読む
Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming
要約 超解像度ディープ ニューラル ネットワークによるニューラルの強化により、既 … 続きを読む
Rethinking Video with a Universal Event-Based Representation
要約 従来、ビデオは一連の個別の画像フレームとして構造化されていました。 しかし … 続きを読む
Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration
要約 最近のビデオ圧縮の進歩により、新しい標準と学習ベースのビデオ コーデックの … 続きを読む
Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation
要約 視覚と言語ナビゲーション (VLN) は、エージェントが指示を理解し、視覚 … 続きを読む