-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Video Question Answering Using CLIP-Guided Visual-Text Attention
要約 Video Question Answering (VideoQA)では、 … 続きを読む
Neighborhood Contrastive Transformer for Change Captioning
要約 チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記 … 続きを読む
AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing
要約 短編映像の爆発的な普及は、人々の交流のあり方を大きく変え、日々の共有や最新 … 続きを読む
Synthetic Misinformers: Generating and Combating Multimodal Misinformation
要約 ソーシャル メディアの拡大とマルチメディア コンテンツの普及に伴い、誤った … 続きを読む
MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation
要約 Vision-and-Language Navigation (VLN) … 続きを読む
Multimodal Analogical Reasoning over Knowledge Graphs
要約 類推は人間の認知の基本であり、さまざまな分野で重要な位置を占めています。 … 続きを読む
The style transformer with common knowledge optimization for image-text retrieval
要約 さまざまなモダリティを関連付ける画像テキスト検索は、その優れた研究価値と幅 … 続きを読む
Global Context-Aware Person Image Generation
要約 コンテキストを意識した人物画像生成のためのデータ駆動型アプローチを提案しま … 続きを読む
Contrastive Video Question Answering via Video Graph Transformer
要約 ビデオ グラフ トランスフォーマー モデル (CoVGT) を介して対照的 … 続きを読む
Blind Omnidirectional Image Quality Assessment: Integrating Local Statistics and Global Semantics
要約 全方向画像品質評価 (OIQA) は、視覚環境の 180$\times$3 … 続きを読む