-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む
Language Model Beats Diffusion — Tokenizer is Key to Visual Generation
要約 大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む
Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む
RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing
要約 モンテカルロ パス トレースは、リアルな画像合成のための強力な技術ですが、 … 続きを読む
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization
要約 ベクトル量子化 (VQ) は、有益な離散潜在表現を抽出するためのディープ … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む
Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging
要約 生成 AI の分野における最近の進歩を活用した、マルチモーダルな非定常コン … 続きを読む
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision
要約 マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピ … 続きを読む