-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
TIPS: Text-Induced Pose Synthesis
要約 コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可 … 続きを読む
Scene Aware Person Image Generation through Global Contextual Conditioning
要約 人のイメージ生成は、興味をそそるが挑戦的な問題です。 ただし、制約された状 … 続きを読む
Semantically Consistent Person Image Generation
要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む
Bridging Compressed Image Latents and Multimodal Large Language Models
要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む
Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications
要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む
Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling
要約 インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認 … 続きを読む
Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions
要約 限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができた … 続きを読む
Human-Centric Foundation Models: Perception, Generation and Agentic Modeling
要約 人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するた … 続きを読む
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
要約 マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフ … 続きを読む