cs.MM」カテゴリーアーカイブ

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

要約 生成的AIと人間の芸術的プロセスが交錯する中、本研究では、人間中心の自動作 … 続きを読む

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation はコメントを受け付けていません

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

要約 近年、Web動画の増加に伴い、大規模な動画データセットの管理と理解がますま … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | KeyVideoLLM: Towards Large-scale Video Keyframe Selection はコメントを受け付けていません

Relating CNN-Transformer Fusion Network for Change Detection

要約 ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、リモー … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Relating CNN-Transformer Fusion Network for Change Detection はコメントを受け付けていません

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

要約 動画ベースの大規模言語モデル(LLM)の登場は、動画理解を著しく向上させた … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM | Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs はコメントを受け付けていません

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition

要約 オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition はコメントを受け付けていません

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

要約 参照表現セグメンテーション (RES) は、テキストによって参照される画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation はコメントを受け付けていません

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

要約 ビデオベースの大規模言語モデル (LLM) の出現により、ビデオの理解が大 … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM | Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis

要約 MetaDesigner は、ラージ言語モデル (LLM) の強みを活用し … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM | MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis はコメントを受け付けていません

Kandinsky 3.0 Technical Report

要約 我々は、潜在拡散に基づく大規模なテキストから画像への生成モデルである Ka … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Kandinsky 3.0 Technical Report はコメントを受け付けていません