-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing
要約 画像検索システムは、ユーザーが大量の画像をリアルタイムで参照および検索する … 続きを読む
Hierarchical Local-Global Transformer for Temporal Sentence Grounding
要約 この論文では、特定の文のクエリに従って、トリミングされていないビデオの特定 … 続きを読む
PanorAMS: Automatic Annotation for Detecting Objects in Urban Context
要約 地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む
PanorAMS: Automatic Annotation for Detecting Objects in Urban Context
要約 地理参照されたパノラマ画像の大規模なコレクションは、世界中の都市で自由に利 … 続きを読む
Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation
要約 元の参照情報なしで画質を正確に予測することを目的としたブラインド画質評価 … 続きを読む
Partially Relevant Video Retrieval
要約 テキストからビデオへの検索 (T2VR) の現在の方法は、MSVD、MSR … 続きを読む
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
要約 クロスモーダル検索の分野における最近の開発にもかかわらず、手動で注釈を付け … 続きを読む
Late multimodal fusion for image and audio music transcription
要約 音楽ソースを構造化されたデジタル形式に変換する音楽のトランスクリプションは … 続きを読む
Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression
要約 一般的に使用される画像圧縮形式として、JPEG は画像の送信と保存に広く適 … 続きを読む