cs.MM」カテゴリーアーカイブ

Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion Model

要約 コンピューター ビジョンにおけるテキスト駆動の人間のモーション生成は、重要 … 続きを読む

カテゴリー: cs.CV, cs.MM | Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion Model はコメントを受け付けていません

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval

要約 クロスモーダル検索に関する現在の研究は、多数の英語指向の人間ラベル付き視覚 … 続きを読む

カテゴリー: cs.CV, cs.MM | Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval はコメントを受け付けていません

Temporal Action Localization with Enhanced Instant Discriminability

要約 時間的アクション検出 (TAD) は、トリミングされていないビデオ内のすべ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Temporal Action Localization with Enhanced Instant Discriminability はコメントを受け付けていません

Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning

要約 通常、音声変換はトレーニング データが限られているエンジニアリング上の問題 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning はコメントを受け付けていません

Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation

要約 マルチモーダルからテキストへの生成タスク用の事前トレーニング済みトランスフ … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD | Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation はコメントを受け付けていません

Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

要約 画像合成における潜在拡散モデル (LDM) の目覚ましい成功に触発されて、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation はコメントを受け付けていません

Deep Video Codec Control

要約 非可逆ビデオ圧縮は、ビデオ データを送信および保存するときに一般的に使用さ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | Deep Video Codec Control はコメントを受け付けていません

T2IW: Joint Text to Image & Watermark Generation

要約 テキスト条件付き画像生成モデルの最近の開発は、リアルな結果の生成に革命をも … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | T2IW: Joint Text to Image & Watermark Generation はコメントを受け付けていません

ArtHDR-Net: Perceptually Realistic and Accurate HDR Content Creation

要約 ハイ ダイナミック レンジ (HDR) コンテンツの作成は、現代のメディア … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, eess.IV, I.2.10 | ArtHDR-Net: Perceptually Realistic and Accurate HDR Content Creation はコメントを受け付けていません

ImageBind-LLM: Multi-modality Instruction Tuning

要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | ImageBind-LLM: Multi-modality Instruction Tuning はコメントを受け付けていません