-
最近の投稿
- KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
-
最近のコメント
表示できるコメントはありません。 cs.AI (34176) cs.CL (25836) cs.CR (2628) cs.CV (40083) cs.LG (39170) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「cs.MM」カテゴリーアーカイブ
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
要約 この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発す … 続きを読む
A Multi-task Adversarial Attack Against Face Authentication
要約 顔認証システムなどの深層学習ベースの ID 管理システムは、敵対的な攻撃に … 続きを読む
Lost in Overlap: Exploring Watermark Collision in LLMs
要約 コンテンツ生成における大規模言語モデル (LLM) の急増により、テキスト … 続きを読む
3D Gaussian Editing with A Single Image
要約 現実世界からキャプチャされた 3D シーンのモデリングと操作は、さまざまな … 続きを読む
End-to-end Semantic-centric Video-based Multimodal Affective Computing
要約 汎用人工知能 (AGI) への道において、人間の愛情を理解することは、機械 … 続きを読む
Generative AI for Immersive Communication: The Next Frontier in Internet-of-Senses Through 6G
要約 過去 20 年にわたり、モノのインターネット (IoT) は変革的な概念と … 続きを読む
Diseño de sonido para producciones audiovisuales e historias sonoras en el aula. Hacia una docencia creativa mediante el uso de herramientas inteligentes
要約 この研究は、オーディオビジュアル作品のサウンドデザインを教えた教育経験を共 … 続きを読む
DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection
要約 赤外線可視物体検出は、赤外線画像と可視画像のペアの補完情報を活用することで … 続きを読む
Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming
要約 超解像度ディープ ニューラル ネットワークによるニューラルの強化により、既 … 続きを読む
Rethinking Video with a Universal Event-Based Representation
要約 従来、ビデオは一連の個別の画像フレームとして構造化されていました。 しかし … 続きを読む