-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
CgT-GAN: CLIP-guided Text GAN for Image Captioning
要約 大規模な視覚言語の事前トレーニング モデルである Contrastive … 続きを読む
Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing
要約 ファッションイラストは、デザイナーが自分のビジョンを伝え、デザインアイデア … 続きを読む
WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning
要約 透かしは、メディアの著作権を保護するために広く採用されているアプローチとし … 続きを読む
M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce
要約 マルチモーダル製品要約 (MMPS) は、長いテキストの製品情報と製品画像 … 続きを読む
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning
要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む
H4VDM: H.264 Video Device Matching
要約 2 つの特定のビデオ シーケンスが同じデバイス (携帯電話やデジタル カメ … 続きを読む
An Evaluation of Three Distance Measurement Technologies for Flying Light Specks
要約 この研究では、距離を測定するための 3 つの異なるタイプの飛行時間センサー … 続きを読む
Dronevision: An Experimental 3D Testbed for Flying Light Specks
要約 現在のドローン用のロボット研究室は、大きな部屋の中に設置されています。 時 … 続きを読む
TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition
要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む
Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization
要約 制約付きイメージ スプライシングの検出と位置特定 (CISDL) は、マル … 続きを読む