cs.MM」カテゴリーアーカイブ

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis はコメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR はコメントを受け付けていません

Question-Answering Dense Video Events

要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

Question-Answering Dense Video Events

要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR はコメントを受け付けていません

LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model

要約 深層学習技術を使用した非参照画像品質評価 (NR-IQA) 分野の最近の進 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model はコメントを受け付けていません

MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning

要約 非参照画像品質評価 (NR-IQA) は、歪みの多様性と注釈付きの大規模な … 続きを読む

カテゴリー: cs.CV, cs.MM | MSLIQA: Enhancing Learning Representations for Image Quality Assessment through Multi-Scale Learning はコメントを受け付けていません

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing

要約 オーディオ駆動の話し顔生成は、入力オーディオに同期した唇の動きを伴うビデオ … 続きを読む

カテゴリー: cs.CV, cs.MM | SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing はコメントを受け付けていません

PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation

要約 以前のオーディオ駆動型トーキングヘッド生成 (THG) 方法は、駆動オーデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation はコメントを受け付けていません