-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency
要約 情報理論と機械学習は密接に関連しており、「同じコインの表裏」とも呼ばれてい … 続きを読む
Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment
要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む
MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む
The Revolution of Multimodal Large Language Models: A Survey
要約 テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む
ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation
要約 マルチシェイプ表現(複数のオブジェクトを「パッキング」する単一モデル)のた … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding
要約 大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption
要約 最近の生成画像圧縮方法は、レートと歪みと知覚のトレードオフの最適化において … 続きを読む