-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
VKIE: The Application of Key Information Extraction on Video Text
要約 ビデオから構造化情報を抽出することは、業界の多数の下流アプリケーションにと … 続きを読む
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークで … 続きを読む
Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem
要約 DCT 係数内の不明、欠落、損傷、歪み、または損失した情報を回復することは … 続きを読む
A Survey on 3D Gaussian Splatting
要約 3D ガウス スプラッティング (3D GS) は、明示的な放射輝度フィー … 続きを読む
Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer
要約 ビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビ … 続きを読む
Retrieval-Augmented Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む
CrisisViT: A Robust Vision Transformer for Crisis Image Classification
要約 緊急時には、危機対応機関は、関連するサービスやリソースを展開するために、現 … 続きを読む
TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
要約 自然言語クエリに基づくビデオ モーメント検索 (MR) とハイライト検出 … 続きを読む
Hierarchical Aligned Multimodal Learning for NER on Tweet Posts
要約 名前付きエンティティ認識(NER)を用いてツイートから構造化された知識をマ … 続きを読む