-
最近の投稿
- Learning Transferable Friction Models and LuGre Identification via Physics Informed Neural Networks
- Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets
- Robust Visual Servoing under Human Supervision for Assembly Tasks
- Practical Insights on Grasp Strategies for Mobile Manipulation in the Wild
- UniPhys: Unified Planner and Controller with Diffusion for Flexible Physics-Based Character Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (36765) cs.CL (27832) cs.CV (42568) cs.HC (2808) cs.LG (41724) cs.RO (21762) cs.SY (3312) eess.IV (4970) eess.SY (3304) stat.ML (5460)
「cs.MM」カテゴリーアーカイブ
Semantically Consistent Person Image Generation
要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む
Bridging Compressed Image Latents and Multimodal Large Language Models
要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む
Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications
要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む
Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling
要約 インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認 … 続きを読む
Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions
要約 限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができた … 続きを読む
Human-Centric Foundation Models: Perception, Generation and Agentic Modeling
要約 人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するた … 続きを読む
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
要約 マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフ … 続きを読む
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む