-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.MM」カテゴリーアーカイブ
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む
Health AI Developer Foundations
要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む
HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
要約 高度なビデオ分析機能を備えた大規模マルチモーダル モデル (LMM) が、 … 続きを読む
Identity Preserving 3D Head Stylization with Multiview Score Distillation
要約 3D 頭部の様式化により、リアルな顔の特徴が芸術的な表現に変換され、ゲーム … 続きを読む
Conceptwm: A Diffusion Model Watermark for Concept Protection
要約 拡散モデルのパーソナライゼーション技術は、特定の概念を生成することに成功し … 続きを読む
CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation
要約 会話中のマルチモーダル感情認識 (MER) は、マルチモーダル情報を統合す … 続きを読む
A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift
要約 トランスベースの超解像度 (SR) モデルは、最近画像再構成の品質を向上さ … 続きを読む
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
要約 マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む