-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data
要約 テキストと画像の両方を含むマルチモーダルな入力に応じて感情制御されたフィー … 続きを読む
Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example
要約 ニューラル生成機能の進歩に伴い、アート コミュニティは絵画コンテンツの作成 … 続きを読む
Quantifying and Enhancing Multi-modal Robustness with Modality Preference
要約 マルチモーダル モデルは、さまざまなソースからの情報を効果的に統合する有望 … 続きを読む
Scalable Diffusion Models with State Space Backbone
要約 この論文は、状態空間アーキテクチャに基づいて構築された拡散モデルのカテゴリ … 続きを読む
Accelerated Event-Based Feature Detection and Compression for Surveillance Video Systems
要約 監視ビデオの強力な時間的一貫性により、従来の方法で魅力的な圧縮パフォーマン … 続きを読む
Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos
要約 ビデオ アクション セグメンテーションは、多くの分野で広く適用されています … 続きを読む
Diffusion Models, Image Super-Resolution And Everything: A Survey
要約 拡散モデル (DM) は、画像の超解像度 (SR) 分野を破壊し、画質と人 … 続きを読む
Multimodal Speech Enhancement Using Burst Propagation
要約 本論文では、前頭前皮質や他の脳領域の錐体細胞に関する最新の神経学的発見を考 … 続きを読む
Unified Hallucination Detection for Multimodal Large Language Models
要約 マルチモーダルなタスクにおいて大きな進歩を遂げたにもかかわらず、マルチモー … 続きを読む
InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions
要約 動画生成のためのユーザ中心のフレームワークである$textit{Inter … 続きを読む