-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos
要約 トリミングされていないビデオが与えられた場合、テンポラル センテンス グラ … 続きを読む
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
要約 Contrastive Language-Image Pre-traini … 続きを読む
Temporal Sentence Grounding in Videos: A Survey and Future Directions
要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
要約 大規模なデータセットでトレーニングされた Foundation モデルは、 … 続きを読む
TriDet: Temporal Action Detection with Relative Boundary Modeling
要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む
MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling
要約 ビデオと言語の理解には、ビデオによる質問への回答、テキストとビデオの検索、 … 続きを読む
QVRF: A Quantization-error-aware Variable Rate Framework for Learned Image Compression
要約 学習した画像圧縮は有望な圧縮性能を示していますが、広範囲にわたる可変ビット … 続きを読む
BIRD-PCC: Bi-directional Range Image-based Deep LiDAR Point Cloud Compression
要約 LiDAR センサーによって収集される大量のデータは、LiDAR ポイント … 続きを読む
Video Question Answering Using CLIP-Guided Visual-Text Attention
要約 ビデオとテキストのクロスモーダル学習は、ビデオ質問応答 (VideoQA) … 続きを読む