「cs.MM」カテゴリーアーカイブ

MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning

投稿日: 2024年9月9日作成者: jarxiv

要約非参照画像品質評価 (NR-IQA) は、歪みの多様性と注釈付きの大規模な … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing

投稿日: 2024年9月6日作成者: jarxiv

要約オーディオ駆動の話し顔生成は、入力オーディオに同期した唇の動きを伴うビデオ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation

投稿日: 2024年9月5日作成者: jarxiv

要約以前のオーディオ駆動型トーキングヘッド生成 (THG) 方法は、駆動オーデ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

ExpLLM: Towards Chain of Thought for Facial Expression Recognition

投稿日: 2024年9月5日作成者: jarxiv

要約表情認識 (FER) は、さまざまなドメインに重大な影響を与えるマルチメデ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

投稿日: 2024年9月5日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) のロングコンテキスト機能を拡 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

投稿日: 2024年9月4日作成者: jarxiv

要約本研究では、シーンテキストをソース言語（例えばヒンディー語）からターゲット … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Inter-Frame Compression for Dynamic Point Cloud Geometry Coding

投稿日: 2024年9月4日作成者: jarxiv

要約効率的な点群圧縮は、仮想現実や複合現実、自律走行、文化遺産などのアプリケー … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification

投稿日: 2024年9月4日作成者: jarxiv

要約数ショットの画像分類は、少ないサンプルで未知の新規クラスから画像を分類する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

投稿日: 2024年8月29日作成者: jarxiv

要約 Explainable AI for the Arts (XAIxArts … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

投稿日: 2024年8月28日作成者: jarxiv

要約キャラクターを認識し、会話の話者を予測することは、音声生成や翻訳などのコミ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing

PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation

ExpLLM: Towards Chain of Thought for Facial Expression Recognition

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

Inter-Frame Compression for Dynamic Point Cloud Geometry Coding

TALDS-Net: Task-Aware Adaptive Local Descriptors Selection for Few-shot Image Classification

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

最近の投稿

最近のコメント

アーカイブ

カテゴリー