-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition
要約 会話中の感情認識 (ERC) は、共感的なサービスを提供できるため、ヒュー … 続きを読む
Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、視 … 続きを読む
CompenHR: Efficient Full Compensation for High-resolution Projector
要約 プロジェクターを完全に補償することは、プロジェクター カメラ システムの実 … 続きを読む
LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching
要約 テキストから 3D への生成における最近の進歩は、生成モデルにおける重要な … 続きを読む
Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation
要約 マルチモーダル学習の主なトピックの 1 つは、異なるモダリティからの異種情 … 続きを読む
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching
要約 自然言語コマンドによるドローンのナビゲーションは、公的に利用可能なマルチモ … 続きを読む
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning
要約 我々は、生成を 2 つのステップに分解するテキストからビデオへの生成モデル … 続きを読む
RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection
要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む
Differentiable JPEG: The Devil is in the Details
要約 JPEG は、依然として最も広く普及している非可逆画像符号化方式の 1 つ … 続きを読む
GANonymization: A GAN-based Face Anonymization Framework for Preserving Emotional Expressions
要約 近年、個人データの可用性が増加しているため、プライバシーとセキュリティに関 … 続きを読む