cs.MM」カテゴリーアーカイブ

Continual Multimodal Knowledge Graph Construction

要約 マルチモーダル ナレッジ グラフ構築 (MMKC) とは、テキスト、画像、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG, cs.MM | Continual Multimodal Knowledge Graph Construction はコメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform はコメントを受け付けていません

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models

要約 マルチモーダル感情分析は、ユーザーの内面を理解する上で重要な分野である。深 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models はコメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

要約 近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform はコメントを受け付けていません

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content

要約 モバイルクラウドゲーム業界は、ここ10年で急速に成長している。クラウドサー … 続きを読む

カテゴリー: 68U10, cs.CV, cs.LG, cs.MM, eess.IV | GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content はコメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約 デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model はコメントを受け付けていません

Image Captioners Sometimes Tell More Than Images They See

要約 タイトル:画像説明の正確さは時に、画像そのものよりも高くなる 要約: &# … 続きを読む

カテゴリー: cs.CV, cs.MM | Image Captioners Sometimes Tell More Than Images They See はコメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | V2Meow: Meowing to the Visual Beat via Music Generation はコメントを受け付けていません

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

要約 【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval はコメントを受け付けていません

Interpretable Multimodal Misinformation Detection with Logic Reasoning

要約 タイトル:論理推論による解釈可能なマルチモーダル偽情報検出 要約: &#8 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Interpretable Multimodal Misinformation Detection with Logic Reasoning はコメントを受け付けていません