-
最近の投稿
- Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance
- Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments
- Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance
-
最近のコメント
表示できるコメントはありません。 cs.AI (36829) cs.CL (27883) cs.CV (42623) cs.HC (2814) cs.LG (41781) cs.RO (21795) cs.SY (3320) eess.IV (4979) eess.SY (3312) stat.ML (5469)
「cs.MM」カテゴリーアーカイブ
Learning Musical Representations for Music Performance Question Answering
要約 音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。 まばらなオ … 続きを読む
Latent Swap Joint Diffusion for Long-Form Audio Generation
要約 グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する … 続きを読む
Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
要約 特にGPTシリーズとO1モデルで、テキストベースの大手言語モデル(LLMS … 続きを読む
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む
Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation
要約 マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話 … 続きを読む
Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
要約 このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2 … 続きを読む
Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む
Seeing World Dynamics in a Nutshell
要約 私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノク … 続きを読む
LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models
要約 GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合 … 続きを読む