cs.MM」カテゴリーアーカイブ

CgT-GAN: CLIP-guided Text GAN for Image Captioning

要約 大規模な視覚言語の事前トレーニング モデルである Contrastive … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | CgT-GAN: CLIP-guided Text GAN for Image Captioning はコメントを受け付けていません

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

要約 ファッションイラストは、デザイナーが自分のビジョンを伝え、デザインアイデア … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing はコメントを受け付けていません

WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning

要約 透かしは、メディアの著作権を保護するために広く採用されているアプローチとし … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, eess.IV | WMFormer++: Nested Transformer for Visible Watermark Removal via Implict Joint Learning はコメントを受け付けていません

M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce

要約 マルチモーダル製品要約 (MMPS) は、長いテキストの製品情報と製品画像 … 続きを読む

カテゴリー: cs.CL, cs.MM | M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce はコメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning はコメントを受け付けていません

H4VDM: H.264 Video Device Matching

要約 2 つの特定のビデオ シーケンスが同じデバイス (携帯電話やデジタル カメ … 続きを読む

カテゴリー: cs.CV, cs.MM | H4VDM: H.264 Video Device Matching はコメントを受け付けていません

An Evaluation of Three Distance Measurement Technologies for Flying Light Specks

要約 この研究では、距離を測定するための 3 つの異なるタイプの飛行時間センサー … 続きを読む

カテゴリー: cs.GR, cs.MM, cs.RO | An Evaluation of Three Distance Measurement Technologies for Flying Light Specks はコメントを受け付けていません

Dronevision: An Experimental 3D Testbed for Flying Light Specks

要約 現在のドローン用のロボット研究室は、大きな部屋の中に設置されています。 時 … 続きを読む

カテゴリー: cs.GR, cs.MM, cs.RO | Dronevision: An Experimental 3D Testbed for Flying Light Specks はコメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization

要約 制約付きイメージ スプライシングの検出と位置特定 (CISDL) は、マル … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization はコメントを受け付けていません