cs.MM」カテゴリーアーカイブ

VKIE: The Application of Key Information Extraction on Video Text

要約 ビデオから構造化情報を抽出することは、業界の多数の下流アプリケーションにと … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | VKIE: The Application of Key Information Extraction on Video Text はコメントを受け付けていません

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークで … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI | Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media はコメントを受け付けていません

Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem

要約 DCT 係数内の不明、欠落、損傷、歪み、または損失した情報を回復することは … 続きを読む

カテゴリー: 68P30, cs.CV, cs.MM | Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem はコメントを受け付けていません

A Survey on 3D Gaussian Splatting

要約 3D ガウス スプラッティング (3D GS) は、明示的な放射輝度フィー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | A Survey on 3D Gaussian Splatting はコメントを受け付けていません

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification はコメントを受け付けていません

TPC-ViT: Token Propagation Controller for Efficient Vision Transformer

要約 ビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.NE | TPC-ViT: Token Propagation Controller for Efficient Vision Transformer はコメントを受け付けていません

Retrieval-Augmented Text-to-Audio Generation

要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Retrieval-Augmented Text-to-Audio Generation はコメントを受け付けていません

CrisisViT: A Robust Vision Transformer for Crisis Image Classification

要約 緊急時には、危機対応機関は、関連するサービスやリソースを展開するために、現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SI | CrisisViT: A Robust Vision Transformer for Crisis Image Classification はコメントを受け付けていません

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

要約 自然言語クエリに基づくビデオ モーメント検索 (MR) とハイライト検出 … 続きを読む

カテゴリー: cs.CV, cs.MM | TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection はコメントを受け付けていません

Hierarchical Aligned Multimodal Learning for NER on Tweet Posts

要約 名前付きエンティティ認識(NER)を用いてツイートから構造化された知識をマ … 続きを読む

カテゴリー: cs.CL, cs.MM | Hierarchical Aligned Multimodal Learning for NER on Tweet Posts はコメントを受け付けていません