-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning
要約 ディープラーニング技術は優れた感情予測を達成していますが、それでも大量のラ … 続きを読む
Disentangling Multi-view Representations Beyond Inductive Bias
要約 多視点(または-モダリティ)表現学習は、異なるビュー表現間の関係を理解する … 続きを読む
SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation
要約 本論文では、SVCNetと呼ばれる、時間集約を用いた走り書きに基づく動画色 … 続きを読む
Video Background Music Generation: Dataset, Method and Evaluation
要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach
要約 自然界における映像の普及は、映像品質評価(VQA)の問題を大きく拡大した。 … 続きを読む
LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On
要約 急速に進化するeコマースやメタバース分野では、消費者体験を向上させる革新的 … 続きを読む
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model
要約 現在のキャプション手法は、名前付きエンティティやコンテキスト情報など、現実 … 続きを読む
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation
要約 最近増加しているマークアップからイメージへの生成は、エラーに対する許容度が … 続きを読む
ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation
要約 画像ベースの対話システムは、視覚情報を統合することで大きな恩恵を受け、高品 … 続きを読む