「cs.MM」カテゴリーアーカイブ

Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition

投稿日: 2024年9月11日作成者: jarxiv

要約非常に低解像度の顔認識は、解像度の低下により情報となる顔の詳細が大幅に失わ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Benchmarking Sub-Genre Classification For Mainstage Dance Music

投稿日: 2024年9月11日作成者: jarxiv

要約音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, I.2.1 | コメントを受け付けていません

Question-Answering Dense Video Events

投稿日: 2024年9月11日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、単一イベントビデオの質 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

投稿日: 2024年9月10日作成者: jarxiv

要約テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2024年9月10日作成者: jarxiv

要約最近、AI コミュニティは、大規模なマルチモーダルデータセットを活用した … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

投稿日: 2024年9月10日作成者: jarxiv

要約大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

Question-Answering Dense Video Events

投稿日: 2024年9月10日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、単一イベントビデオの質 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Question-Answering Dense Video Events

投稿日: 2024年9月9日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、単一イベントビデオの質 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

投稿日: 2024年9月9日作成者: jarxiv

要約大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model

投稿日: 2024年9月9日作成者: jarxiv

要約深層学習技術を使用した非参照画像品質評価 (NR-IQA) 分野の最近の進 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition

Benchmarking Sub-Genre Classification For Mainstage Dance Music

Question-Answering Dense Video Events

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

Question-Answering Dense Video Events

Question-Answering Dense Video Events

HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR

LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー