「cs.MM」カテゴリーアーカイブ

Pseudo-triplet Guided Few-shot Composed Image Retrieval

投稿日: 2024年7月9日作成者: jarxiv

要約合成画像検索 (CIR) は、マルチモーダルクエリ (参照画像とそれに対 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

投稿日: 2024年7月8日作成者: jarxiv

要約本稿では、トランスフォーマ・アーキテクチャのパワーを活用し、高性能な成果を … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

VCoME: Verbal Video Composition with Multimodal Editing Effects

投稿日: 2024年7月8日作成者: jarxiv

要約ボイスオーバーやテキストオーバーレイを特徴とする言葉によるビデオは、価値あ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

投稿日: 2024年7月4日作成者: jarxiv

要約生成的AIと人間の芸術的プロセスが交錯する中、本研究では、人間中心の自動作 … 続きを読む →

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

投稿日: 2024年7月4日作成者: jarxiv

要約近年、Web動画の増加に伴い、大規模な動画データセットの管理と理解がますま … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Relating CNN-Transformer Fusion Network for Change Detection

投稿日: 2024年7月4日作成者: jarxiv

要約ディープラーニング、特に畳み込みニューラルネットワーク（CNN）は、リモー … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

投稿日: 2024年7月4日作成者: jarxiv

要約動画ベースの大規模言語モデル（LLM）の登場は、動画理解を著しく向上させた … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM | コメントを受け付けていません

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition

投稿日: 2024年7月3日作成者: jarxiv

要約オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

投稿日: 2024年7月3日作成者: jarxiv

要約参照表現セグメンテーション (RES) は、テキストによって参照される画像 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

投稿日: 2024年7月3日作成者: jarxiv

要約ビデオベースの大規模言語モデル (LLM) の出現により、ビデオの理解が大 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Pseudo-triplet Guided Few-shot Composed Image Retrieval

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

VCoME: Verbal Video Composition with Multimodal Editing Effects

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

Relating CNN-Transformer Fusion Network for Change Detection

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

最近の投稿

最近のコメント

アーカイブ

カテゴリー