cs.MM」カテゴリーアーカイブ

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

要約 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD) … 続きを読む

カテゴリー: cs.CV, cs.MM | TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection はコメントを受け付けていません

EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation

要約 生き生きとした多様な3D共同音声ジェスチャを生成することは、バーチャルアバ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation はコメントを受け付けていません

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval

要約 テキストクエリが与えられた場合、部分関連ビデオ検索(PRVR)は、適切な瞬 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval はコメントを受け付けていません

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope

要約 本稿では、ModelScope上の大規模言語モデル(Large Langu … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope はコメントを受け付けていません

VGA: Vision and Graph Fused Attention Network for Rumor Detection

要約 ソーシャルメディアの発達に伴い、噂はソーシャルメディア上で広く拡散され、社 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | VGA: Vision and Graph Fused Attention Network for Rumor Detection はコメントを受け付けていません

New Job, New Gender? Measuring the Social Bias in Image Generation Models

要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SE | New Job, New Gender? Measuring the Social Bias in Image Generation Models はコメントを受け付けていません

NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement

要約 ビデオ コンテンツの人気は急増しており、インターネット トラフィックやモノ … 続きを読む

カテゴリー: cs.CV, cs.MM | NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement はコメントを受け付けていません

RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing

要約 広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing はコメントを受け付けていません

A Survey on Super Resolution for video Enhancement Using GAN

要約 さまざまな研究論文のハイライトをまとめたこの本は、敵対的生成ネットワークな … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | A Survey on Super Resolution for video Enhancement Using GAN はコメントを受け付けていません

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

要約 マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision はコメントを受け付けていません