-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network
要約 このホワイトペーパーでは、ViGATと呼ばれる純粋な注意のボトムアップアプ … 続きを読む
Rethinking Data Augmentation for Robust Visual Question Answering
要約 データ拡張(DA)(元のトレーニングセットを超える追加のトレーニングサンプ … 続きを読む
EKTVQA: Generalized use of External Knowledge to empower Scene Text in Text-VQA
要約 Text-VQAの自由形式の質問応答タスクでは、画像のめったに見られない、 … 続きを読む
Semi-Supervised Temporal Action Detection with Proposal-Free Masking
要約 既存の時間的行動検出(TAD)メソッドは、セグメントレベルの注釈付きの多数 … 続きを読む
Explaining Image Enhancement Black-Box Methods through a Path Planning Based Algorithm
要約 今日、画像から画像への翻訳方法は、自然な画像を強調するための最先端技術です … 続きを読む
Dress Code: High-Resolution Multi-Category Virtual Try-On
要約 画像ベースの仮想試着は、衣料品の外観を対象者の画像に転写することを目的とし … 続きを読む
RTN: Reinforced Transformer Network for Coronary CT Angiography Vessel-level Image Quality Assessment
要約 冠状動脈CT血管造影(CCTA)は、心血管疾患の正確な診断を著しく損なうさ … 続きを読む
Intra-Modal Constraint Loss For Image-Text Retrieval
要約 クロスモーダル検索は、コンピュータービジョンと自然言語処理の両方の分野で大 … 続きを読む
Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection
要約 弱く監視された視聴覚暴力の検出は、ビデオレベルのラベルを持つマルチモーダル … 続きを読む
Long-term Leap Attention, Short-term Periodic Shift for Video Classification
要約 ビデオトランスフォーマーは、静的ビジョントランスフォーマーよりも計算負荷が … 続きを読む