「cs.MM」カテゴリーアーカイブ

Continual Multimodal Knowledge Graph Construction

投稿日: 2023年5月16日作成者: jarxiv

要約マルチモーダルナレッジグラフ構築 (MMKC) とは、テキスト、画像、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG, cs.MM | コメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

投稿日: 2023年5月16日作成者: jarxiv

要約近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models

投稿日: 2023年5月15日作成者: jarxiv

要約マルチモーダル感情分析は、ユーザーの内面を理解する上で重要な分野である。深 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM | コメントを受け付けていません

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

投稿日: 2023年5月15日作成者: jarxiv

要約近年、評価歪み-知覚圧縮を優先し、低ビットレートでも微細なディテールを保持 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content

投稿日: 2023年5月15日作成者: jarxiv

要約モバイルクラウドゲーム業界は、ここ10年で急速に成長している。クラウドサー … 続きを読む →

カテゴリー: 68U10, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

投稿日: 2023年5月12日作成者: jarxiv

要約デノイジング拡散確率モデル（DDPM）は、音声合成において有望な性能を示し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Image Captioners Sometimes Tell More Than Images They See

投稿日: 2023年5月12日作成者: jarxiv

要約タイトル：画像説明の正確さは時に、画像そのものよりも高くなる要約： &# … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

投稿日: 2023年5月12日作成者: jarxiv

要約タイトル：V2Meow：音楽生成によるビジュアルビートのミウシカ要約： … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

投稿日: 2023年5月11日作成者: jarxiv

要約【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Interpretable Multimodal Misinformation Detection with Logic Reasoning

投稿日: 2023年5月11日作成者: jarxiv

要約タイトル：論理推論による解釈可能なマルチモーダル偽情報検出要約： &#8 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Continual Multimodal Knowledge Graph Construction

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

Image Captioners Sometimes Tell More Than Images They See

V2Meow: Meowing to the Visual Beat via Music Generation

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

Interpretable Multimodal Misinformation Detection with Logic Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー