-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
要約 この作業では、オープン語彙ビデオ分類、テキストからビデオへの検索、ビデオ … 続きを読む
Memories are One-to-Many Mapping Alleviators in Talking Face Generation
要約 話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む
iQuery: Instruments as Queries for Audio-Visual Sound Separation
要約 現在のオーディオとビジュアルの分離方法は、オーディオ エンコーダー/デコー … 続きを読む
iQuery: Instruments as Queries for Audio-Visual Sound Separation
要約 現在のオーディオとビジュアルの分離方法は、オーディオ エンコーダー/デコー … 続きを読む
Semantic-Conditional Diffusion Networks for Image Captioning
要約 テキストから画像への生成に関する最近の進歩により、強力な生成モデルとして機 … 続きを読む
Role of Audio in Audio-Visual Video Summarization
要約 映像の要約は、映像の表現、検索、閲覧を効率的に行い、映像の量やトラフィック … 続きを読む
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations
要約 Visual Entailment with natural langua … 続きを読む
Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection
要約 ビデオでのアクティブ スピーカーの検出は、ビデオ フレームに表示されるソー … 続きを読む
Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation
要約 大規模言語モデル (LLM) をテキストベースのアクション生成モデルに組み … 続きを読む