-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Video Background Music Generation: Dataset, Method and Evaluation
要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach
要約 自然界における映像の普及は、映像品質評価(VQA)の問題を大きく拡大した。 … 続きを読む
LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On
要約 急速に進化するeコマースやメタバース分野では、消費者体験を向上させる革新的 … 続きを読む
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model
要約 現在のキャプション手法は、名前付きエンティティやコンテキスト情報など、現実 … 続きを読む
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation
要約 最近増加しているマークアップからイメージへの生成は、エラーに対する許容度が … 続きを読む
ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation
要約 画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む
Multi-Modality Multi-Loss Fusion Network
要約 この研究では、複数のモダリティにわたる特徴の最適な選択と融合を調査し、これ … 続きを読む
Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts
要約 ソーシャルメディア上でのマルチモーダルコンテンツの急増により、マルチモーダ … 続きを読む
ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation
要約 画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む