-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Conceptwm: A Diffusion Model Watermark for Concept Protection
要約 拡散モデルのパーソナライゼーション技術は、特定の概念を生成することに成功し … 続きを読む
CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation
要約 会話中のマルチモーダル感情認識 (MER) は、マルチモーダル情報を統合す … 続きを読む
A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift
要約 トランスベースの超解像度 (SR) モデルは、最近画像再構成の品質を向上さ … 続きを読む
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
要約 マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む
SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model
要約 音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む
Pseudo-triplet Guided Few-shot Composed Image Retrieval
要約 合成画像検索 (CIR) は、マルチモーダル クエリを使用してターゲット画 … 続きを読む
Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer
要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む
A Hierarchical Compression Technique for 3D Gaussian Splatting Compression
要約 3D ガウス スプラッティング (GS) は、新しいビュー合成において優れ … 続きを読む
A multi-purpose automatic editing system based on lecture semantics for remote education
要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む