-
最近の投稿
- Predicting center of mass position in non-cyclic activities: The influence of acceleration, prediction horizon, and ground reaction forces
- Are Transformers Truly Foundational for Robotics?
- Performance Evaluation of Deep Learning-Based State Estimation: A Comparative Study of KalmanNet
- Performance Assessment of Lidar Odometry Frameworks: A Case Study at the Australian Botanic Garden Mount Annan
- VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (30189) cs.CL (22805) cs.CR (2340) cs.CV (36561) cs.LG (35013) cs.RO (17553) cs.SY (2697) eess.IV (4453) eess.SY (2691) stat.ML (4664)
「cs.MM」カテゴリーアーカイブ
Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation
要約 マルチモーダルな知識を大規模言語モデル (LLM) に統合することは、対話 … 続きを読む
MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer
要約 食道がんは、世界中で最も一般的ながんの種類の 1 つであり、がん関連死亡率 … 続きを読む
A vector quantized masked autoencoder for audiovisual speech emotion recognition
要約 ラベル付きデータの利用可能性が限られていることが、視聴覚音声感情認識 (S … 続きを読む
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
要約 テキストから音楽への生成モデルの最近の進歩により、音楽の創造性に新たな道が … 続きを読む
Scalable Image Coding for Humans and Machines Using Feature Fusion Network
要約 画像認識モデルが普及するにつれて、機械と人間のためのスケーラブルなコーディ … 続きを読む
Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
要約 音楽からダンスを生成するというタスクは重要ですが、主に関節シーケンスを生成 … 続きを読む
MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
要約 近年、通常、ビジュアルとオーディオの両方のモダリティを含むショートビデオが … 続きを読む
ReconBoost: Boosting Can Achieve Modality Reconcilement
要約 この論文では、ユニモーダル機能の活用とクロスモーダル相互作用の探索の間の調 … 続きを読む
MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer
要約 食道がんは、世界中で最も一般的ながんの種類の 1 つであり、がん関連死亡率 … 続きを読む
ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation
要約 化学と人工知能 (AI) の分野は、科学的発見を加速することを目的とした活 … 続きを読む