「cs.MM」カテゴリーアーカイブ

Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem

投稿日: 2024年1月9日作成者: jarxiv

要約 DCT 係数内の不明、欠落、損傷、歪み、または損失した情報を回復することは … 続きを読む →

カテゴリー: 68P30, cs.CV, cs.MM | コメントを受け付けていません

A Survey on 3D Gaussian Splatting

投稿日: 2024年1月9日作成者: jarxiv

要約 3D ガウススプラッティング (3D GS) は、明示的な放射輝度フィー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

投稿日: 2024年1月9日作成者: jarxiv

要約近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

TPC-ViT: Token Propagation Controller for Efficient Vision Transformer

投稿日: 2024年1月9日作成者: jarxiv

要約ビジョントランスフォーマー (ViT) は、さまざまなコンピュータービ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.NE | コメントを受け付けていません

Retrieval-Augmented Text-to-Audio Generation

投稿日: 2024年1月8日作成者: jarxiv

要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

CrisisViT: A Robust Vision Transformer for Crisis Image Classification

投稿日: 2024年1月8日作成者: jarxiv

要約緊急時には、危機対応機関は、関連するサービスやリソースを展開するために、現 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SI | コメントを受け付けていません

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

投稿日: 2024年1月8日作成者: jarxiv

要約自然言語クエリに基づくビデオモーメント検索 (MR) とハイライト検出 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Hierarchical Aligned Multimodal Learning for NER on Tweet Posts

投稿日: 2024年1月5日作成者: jarxiv

要約名前付きエンティティ認識（NER）を用いてツイートから構造化された知識をマ … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

投稿日: 2024年1月5日作成者: jarxiv

要約自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD) … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation

投稿日: 2024年1月4日作成者: jarxiv

要約生き生きとした多様な3D共同音声ジェスチャを生成することは、バーチャルアバ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem

A Survey on 3D Gaussian Splatting

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

TPC-ViT: Token Propagation Controller for Efficient Vision Transformer

Retrieval-Augmented Text-to-Audio Generation

CrisisViT: A Robust Vision Transformer for Crisis Image Classification

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

Hierarchical Aligned Multimodal Learning for NER on Tweet Posts

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー