-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
要約 対話における皮肉の説明 (SED) は、新しいながらもやりがいのあるタスク … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It
要約 オンライン コースにより、教育へのアクセスの障壁は大幅に低くなりましたが、 … 続きを読む
Reviewing Intelligent Cinematography: AI research for camera-based video production
要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む
Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
要約 自動ビデオ ダビング (AVD) は、スクリプトから唇の動きと顔の感情に合 … 続きを読む
ChemDFM-X: Towards Large Multimodal Model for Chemistry
要約 AI ツールの急速な発展により、化学を含む自然科学の研究にこれまでにない支 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Inclusion 2024 Global Multimedia Deepfake Detection: Towards Multi-dimensional Facial Forgery Detection
要約 このペーパーでは、Inclusion 2024 と同時に開催されたグローバ … 続きを読む
Towards Identity-Aware Cross-Modal Retrieval: a Dataset and a Baseline
要約 深層学習の最近の進歩により、特に画像とテキストを共有埋め込みスペースにマッ … 続きを読む