-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
要約 既存のクロスモーダル検索方法のほとんどは、画像とテキストに対して異なるアー … 続きを読む
Learning to Pan-sharpening with Memories of Spatial Details
要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む
SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition
要約 イベントカメラベースのパターン認識は、近年新たに浮上した研究テーマです。 … 続きを読む
Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination
要約 既存の画像とテキストのマッチング手法のほとんどは、最適化目標としてトリプレ … 続きを読む
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis
要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis
要約 近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています … 続きを読む
Video-based Person Re-identification with Long Short-Term Representation Learning
要約 ビデオベースの人物再識別 (V-ReID) は、重複していないカメラで撮影 … 続きを読む
Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning
要約 ディープラーニング技術は優れた感情予測を達成していますが、それでも大量のラ … 続きを読む
Disentangling Multi-view Representations Beyond Inductive Bias
要約 多視点(または-モダリティ)表現学習は、異なるビュー表現間の関係を理解する … 続きを読む
SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation
要約 本論文では、SVCNetと呼ばれる、時間集約を用いた走り書きに基づく動画色 … 続きを読む