cs.MM」カテゴリーアーカイブ

Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for Speech-to-Image Generation

要約 音声から画像への変換の目的は、音声信号から直接フォトリアリスティックな画像 … 続きを読む

カテゴリー: cs.CV, cs.MM | Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for Speech-to-Image Generation はコメントを受け付けていません

NFI$_2$: Learning Noise-Free Illuminance-Interpolator for Unsupervised Low-Light Image Enhancement

要約 低照度の状況では、消費者向け写真における美的品質の追求が大幅に制限されます … 続きを読む

カテゴリー: cs.CV, cs.MM | NFI$_2$: Learning Noise-Free Illuminance-Interpolator for Unsupervised Low-Light Image Enhancement はコメントを受け付けていません

From Region to Patch: Attribute-Aware Foreground-Background Contrastive Learning for Fine-Grained Fashion Retrieval

要約 属性固有のファッション検索 (ASFR) は、近年ますます注目を集めている … 続きを読む

カテゴリー: cs.CV, cs.MM | From Region to Patch: Attribute-Aware Foreground-Background Contrastive Learning for Fine-Grained Fashion Retrieval はコメントを受け付けていません

Evaluating Object Hallucination in Large Vision-Language Models

要約 大規模言語モデル (LLM) の優れた言語能力に触発され、複雑なマルチモー … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Evaluating Object Hallucination in Large Vision-Language Models はコメントを受け付けていません

Continual Multimodal Knowledge Graph Construction

要約 マルチモーダル ナレッジ グラフ構築 (MMKC) とは、テキスト、画像、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG, cs.MM | Continual Multimodal Knowledge Graph Construction はコメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform はコメントを受け付けていません

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models

要約 マルチモーダル感情分析は、ユーザーの内面を理解する上で重要な分野である。深 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models はコメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform はコメントを受け付けていません

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content

要約 モバイルクラウドゲーム業界は、ここ10年で急速に成長している。クラウドサー … 続きを読む

カテゴリー: 68U10, cs.CV, cs.LG, cs.MM, eess.IV | GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません