-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む
Learning Musical Representations for Music Performance Question Answering
要約 音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。 まばらなオ … 続きを読む
Latent Swap Joint Diffusion for Long-Form Audio Generation
要約 グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する … 続きを読む
Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
要約 特にGPTシリーズとO1モデルで、テキストベースの大手言語モデル(LLMS … 続きを読む
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む
Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation
要約 マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話 … 続きを読む
Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
要約 このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2 … 続きを読む
Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む