-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「cs.MM」カテゴリーアーカイブ
A multimodal dynamical variational autoencoder for audiovisual speech representation learning
要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Evaluating Image Review Ability of Vision Language Models
要約 大規模ビジョン言語モデル (LVLM) は、単一のモデルで画像とテキスト入 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond
要約 生成言語モデルの最近の進歩により、文書から知識を記憶し、知識を思い出してユ … 続きを読む
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Lester: rotoscope animation through video object segmentation and tracking
要約 この記事では、ビデオからレトロスタイルの 2D アニメーションを自動的に合 … 続きを読む
MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding
要約 知覚では、複数の感覚情報が統合されて、2D ビューからの視覚情報が 3D … 続きを読む
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio
要約 我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル P … 続きを読む
LL-GABR: Energy Efficient Live Video Streaming Using Reinforcement Learning
要約 近年、ライブ ビデオ ストリーミング用のアダプティブ ビットレート (AB … 続きを読む